Reachy Miniが完全ローカルAI会話に対応
詳細を読む
Hugging Faceは2026年5月27日、小型ヒューマノイドロボット「Reachy Mini」の音声会話機能を完全にローカル環境で実行する方法を公開しました。従来はクラウドへの音声送信が必要でしたが、同社のspeech-to-speechライブラリを使い、VAD(音声区間検出)からSTT(音声認識)、LLM(大規模言語モデル)、TTS(音声合成)までの全パイプラインをローカルマシン上で動作させることが可能になりました。
技術構成はカスケード方式を採用しています。音声区間検出にはSilero VAD v5、音声認識にはParakeet-TDT 0.6B v3、音声合成にはQwen3-TTSを推奨構成として選定しています。各コンポーネントは独立しており、より高品質なモデルが登場すれば個別に差し替えられる設計です。
LLMの推論基盤はllama.cpp、MLX、Transformers、vLLMなど複数の選択肢に対応しています。推奨モデルはGemma 4のE4B量子化版で、llama.cppでは`brew install`一発で導入でき、64Kコンテキストウィンドウとフラッシュアテンションによる高速推論が可能です。Apple Silicon搭載MacではMLX経由でQwen3-4Bも低遅延で動作します。
プライバシーとコスト面のメリットも大きいです。音声データが一切外部に送信されず、APIの従量課金も不要になります。ロボットと推論サーバーを別マシンで動かす場合も、LAN内のIPアドレスを指定するだけで接続できます。
Responses APIプロトコルに準拠しているため、ローカル推論だけでなくHugging Face Inference EndpointsやOpenAI互換プロバイダーへの接続も同じインターフェースで切り替え可能です。vLLM 0.21.0以降ではMulti-Token Predictionによるさらなる低遅延化も実現しています。