HuggingFace、非同期RL訓練の設計指針を16ライブラリ調査から導出

強化学習Hugging Face

同期RL訓練の課題

推論待ちでGPU稼働率40%以下
32Bモデルの1バッチ生成に数時間
ストラグラー問題が遅延を増幅

非同期化の共通設計

推論と訓練を別GPUプールに分離
ロールアウトバッファで両者を接続
8/16ライブラリがRayを採用
NCCLブロードキャストが重み同期の標準

TRL新設計と今後の課題

トークン単位のバージョン管理を採用
MoE対応が次世代の差別化要因
詳細を読む

Hugging Faceは、大規模言語モデルの強化学習(RL)訓練における非同期アーキテクチャの設計指針を、16のオープンソースライブラリを7軸で比較調査した結果として公開しました。

同期型RL訓練では、推論フェーズがウォールクロック時間の大半を占め、訓練用GPUが長時間アイドル状態になります。32Bモデルで32Kトークンのロールアウトを生成すると、1GPU当たり約3.7時間を要し、GRPOのグループ生成では最も遅い完了に全体が律速されます。

調査対象の全ライブラリが共通して採用した解決策は、推論と訓練を別々のGPUプールに分離し、ロールアウトバッファで接続して非同期に重みを転送する構成です。これにより推論は継続的にデータを生成し、訓練側は待機なく勾配計算を進められます。

比較7軸のうち特に重要なのは、重み同期プロトコル陳腐化管理です。重み同期ではNCCLブロードキャストが主流で、verlのバケット化により20ミリ秒まで短縮可能です。陳腐化対策はバージョン棄却・深度制限・重要度サンプリング補正の3戦略があり、本番環境では複合的に組み合わせる傾向にあります。

Hugging FaceはTRLの新しい非同期トレーナーに向け、トークン単位のバージョンタグ付きバウンデッドキュー、NCCLバケット転送、エージェント型ワークロード向けの部分ロールアウト対応を設計方針として示しました。今後はMoEモデルのエキスパート並列対応や、蒸留との統合が差別化の鍵になると分析しています。