マオリ族が自前AI音声で言語主権を確立
データ主権の確保
世界への波及
詳細を読む
ニュージーランドのワイカト大学Te Taka Keegan教授らが、マオリ語の特定方言に対応した高品質AI音声合成システムを開発しました。ChatGPTやClaudeなど大手AIは標準化されたマオリ語を扱えますが、そのモデルはマオリ族の許可なくデータを収集して構築されたものです。Keegan教授はこれをデータ主権の問題と位置づけ、コミュニティが所有・管理するAI音声の開発に着手しました。
開発チームはマオリ語翻訳者Ngaringi Katipa氏の音声を約7時間45分録音し、オープンソースのニューラルTTSアーキテクチャPiperで学習させました。音素ベースの入力方式を採用したことで、通常数百時間とされる学習データを大幅に削減しつつ、単語誤り率6.78%という業界基準で「良好」な精度を実現しています。68人のマオリ語話者による聴取テストでは、合成音声と人間の声の正答率は65%にとどまり、高い自然性が確認されました。
技術面で特筆すべきは、マオリ語特有の母音長の区別やダイグラフの発音規則への対応です。eSpeak NGのマオリ語音素ルールを改良し、「keke(ケーキ)」「kēkē(腋)」「kekē(きしむ)」のような母音長だけで意味が変わる語の区別を可能にしました。すべてオフラインのローカル環境で動作する設計となっており、外部サーバーへのデータ送信は不要です。
所有権の設計も革新的です。標準的な知財法上はKatipa氏に帰属する音声モデルを、マオリの慣習に従い3つの部族(イウィ)の共同管理下に置く方針です。ウェリントンのCatalyst IT社がホスティングと計算資源を1年間無償提供し、大学ではなくコミュニティが技術の守護者となる体制を構築しています。
この取り組みは世界的な先住民AI主権運動の一環です。ニュージーランドのTe Hiku Mediaは92%精度のマオリ語音声認識をKaitiakitanga免許で公開し、バルセロナではカタルーニャ語の多方言TTSが開発されています。Keegan教授は長期的に方言ごとの独自大規模言語モデル構築を目指しており、今回の音声合成プロジェクトがその再現可能なテンプレートになると述べています。