会話リズムで相手特定、ワシントン大がAI聴覚技術を開発

会話リズムで相手を自動特定

話者交代パターンをAIが解析
ユーザー自身の声を基準に相手を特定
従来の方向や音量に依存しない手法

脳を模倣したデュアルモデル

文脈理解と音声処理を分離して実行
10ミリ秒未満の超低遅延を実現
未学習の日本でも動作を確認
音声明瞭度を最大14.6dB向上
詳細を読む

ワシントン大学の研究チームは2025年12月、騒音下でも会話相手の声だけをクリアにする「プロアクティブ聴覚アシスタント」を発表しました。AIが会話特有のリズムを解析し、能動的に相手を特定する技術であり、従来の補聴器の課題を解消する可能性があります。

このシステムの核心は、人間が自然に行う「話者交代」のパターン認識にあります。マイクで拾ったユーザー自身の声をアンカー(基準)とし、自然なタイミングで応答する音声をAIが識別。方向や音量に頼らず、適切な会話パートナーのみを強調します。

処理遅延を防ぐため、人間の脳の情報処理を模した「デュアルモデル」を採用しています。会話の流れを把握する「遅いモデル」と、音声を即座に分離する「速いモデル」を並列稼働させ、リップシンクがずれない10ミリ秒以内の高速処理を実現しました。

実験では、英語と中国語で学習させたモデルが、未学習の日本語会話にも適応できることが確認されました。これは会話のリズムに言語を超えた普遍性があることを示唆しています。相手の特定精度は最大92%に達し、音声の明瞭度も大幅に向上しました。

今後は大規模言語モデル(LLM)を統合し、誰が「意味のある発言」をしているかまで理解するシステムの構築を目指します。実環境での複雑なノイズ処理など課題は残りますが、次世代の補聴器やARグラスへの実装により、生産性向上が期待される技術です。