会話リズムで相手特定、ワシントン大がAI聴覚技術を開発

2025年12月08日生産性アシスタント音声中国日本

会話リズムで相手を自動特定

話者交代パターンをAIが解析

ユーザー自身の声を基準に相手を特定

従来の方向や音量に依存しない手法

文脈理解と音声処理を分離して実行

10ミリ秒未満の超低遅延を実現

未学習の日本語でも動作を確認

音声明瞭度を最大14.6dB向上

詳細を読む

ワシントン大学の研究チームは2025年12月、騒音下でも会話相手の声だけをクリアにする「プロアクティブ聴覚アシスタント」を発表しました。AIが会話特有のリズムを解析し、能動的に相手を特定する技術であり、従来の補聴器の課題を解消する可能性があります。

このシステムの核心は、人間が自然に行う「話者交代」のパターン認識にあります。マイクで拾ったユーザー自身の声をアンカー（基準）とし、自然なタイミングで応答する音声をAIが識別。方向や音量に頼らず、適切な会話パートナーのみを強調します。

処理遅延を防ぐため、人間の脳の情報処理を模した「デュアルモデル」を採用しています。会話の流れを把握する「遅いモデル」と、音声を即座に分離する「速いモデル」を並列稼働させ、リップシンクがずれない10ミリ秒以内の高速処理を実現しました。

実験では、英語と中国語で学習させたモデルが、未学習の日本語会話にも適応できることが確認されました。これは会話のリズムに言語を超えた普遍性があることを示唆しています。相手の特定精度は最大92%に達し、音声の明瞭度も大幅に向上しました。

今後は大規模言語モデル（LLM）を統合し、誰が「意味のある発言」をしているかまで理解するシステムの構築を目指します。実環境での複雑なノイズ処理など課題は残りますが、次世代の補聴器やARグラスへの実装により、生産性向上が期待される技術です。