IBMがGranite 4.0 1B Speechを公開、エッジ向け多言語音声認識で首位

モデルの特徴

パラメータ数を前世代比半減
英語転写精度が前世代を上回る
投機的デコード推論を高速化
日本語を含む6言語に対応
キーワードバイアシング機能を新搭載

性能と展開

OpenASRリーダーボードで1位獲得
パラメータ数以上の翻訳精度を実現
Apache 2.0ライセンスで公開
Granite Guardianとの組み合わせ推奨
詳細を読む

IBMは2026年3月9日、エッジデバイス向け音声言語モデル「Granite 4.0 1B Speech」をHugging Faceで公開した。多言語音声認識(ASR)と双方向音声翻訳(AST)に対応し、英語・仏語・独語・西語・葡語・日本語の6言語をサポートする。

前世代モデル「granite-speech-3.3-2b」と比べてパラメータ数を半分の約10億に削減しながら、英語転写の単語誤り率(WER)は改善した。投機的デコードの採用により推論速度も向上しており、リソースが限られたデバイスでの実用展開を想定した設計となっている。

今回の新機能として、日本語ASRサポートとキーワードバイアシングが追加された。キーワードバイアシングは固有名詞や略語の認識精度を高める機能で、コミュニティから要望の多かった機能を優先実装している。

性能面では、Hugging Faceが運営するOpenASRリーダーボードで1位を獲得。複数の標準ベンチマークにおいて、はるかにパラメータ数の多いモデルと同等以上の精度を達成しており、小規模モデルとしての競争力を示した。

モデルはApache 2.0ライセンスで公開され、transformersおよびvLLMでネイティブサポートされる。本番環境ではリスク検出のためにGranite Guardianとの組み合わせが推奨されており、アーキテクチャ詳細や学習データはモデルカードで確認できる。