IBM、Granite 4.1の訓練手法を公開 8Bモデルが旧世代32Bに匹敵

2026年04月29日 NVIDIA 数学推論強化学習事前学習品質保証

5段階の事前学習

約15兆トークンで訓練

5段階でデータ配合を段階的に精製

最終段階で512Kコンテキスト対応

SFTとRLの後処理

LLM審査官で410万件を品質管理

4段階RL:多領域、RLHF、校正、数学

GRPO+DAPO損失で安定した強化学習

成果とライセンス

8B密モデルが旧32B MoEを上回る性能

Apache 2.0で全モデル公開

出典：Hugging Face

詳細を読む

IBMのGraniteチームは2026年4月29日、大規模言語モデルGranite 4.1シリーズ(3B、8B、30B)の訓練手法を詳細に公開しました。同モデルは約15兆トークンの5段階事前学習、410万件のSFTデータによる微調整、そして多段階の強化学習パイプラインを経て構築されています。注目すべきは、8Bの密モデルが前世代の32BパラメータMoEモデル(Granite 4.0-H-Small)と同等以上の性能を達成した点です。

事前学習は5つのフェーズで構成されています。第1フェーズでは10兆トークンのウェブデータ中心の汎用学習を行い、第2フェーズでコードと数学データの比率を大幅に引き上げます。第3・第4フェーズでは高品質データへの絞り込み(アニーリング)を実施し、思考連鎖や合成指示データも混合します。最終フェーズではコンテキスト長を4Kから最大512Kへ段階的に拡張しています。

SFT(教師あり微調整)では、LLM審査官フレームワークを用いて約410万件の高品質サンプルを厳選しています。幻覚や誤計算など重大な欠陥は点数に関係なく自動的に除外され、指示遵守・正確性・完全性・簡潔性・自然さ・校正の6次元で評価されます。ルールベースのフィルタリングも併用し、全判定が監査可能な設計です。

強化学習は4段階のパイプラインで実施されます。まず数学・科学・論理推論など9領域の同時訓練で汎用性を維持し、次にRLHFで会話能力を強化します。AlpacaEvalでSFTから平均18.9ポイント向上しました。その後、自己識別の校正と、RLHFで低下した数学性能の回復(GSM8Kで平均3.8ポイント、DeepMind-Mathで平均23.48ポイント改善)を行います。

全モデルはApache 2.0ライセンスで公開されており、NVIDIA GB200 NVL72クラスタ上で訓練されました。FP8量子化版も提供され、vLLMでの推論時にメモリ使用量を約50%削減できます。長い思考連鎖に依存しない設計のため、レイテンシやトークン消費が予測しやすく、企業向けワークロードでの実用性を重視した構成となっています。