LLM推論の自動最適化でトークン消費69.5%削減
詳細を読む
MetaやGoogleなどの研究者が、大規模言語モデル(LLM)の推論時に使うテストタイムスケーリング(TTS)戦略を自動設計するフレームワーク「AutoTTS」を発表しました。従来は人間の直感に頼って手作業で設計していたTTS戦略を、探索AIエージェントが自動で発見・最適化します。実験ではトークン消費量を最大69.5%削減しながら精度を維持し、一部のベンチマークではすべての手動設計手法を上回る精度を達成しました。
TTS はLLMの推論時に追加の計算資源を与えて性能を高める手法です。複数の推論パスを生成し、中間ステップを評価してから最終回答を導きます。しかし、いつ推論を分岐させるか、どの枝を剪定するか、いつ停止するかといった制御ルールは、これまで研究者が試行錯誤で設計していました。この手動プロセスでは膨大な戦略空間のごく一部しか探索できず、精度とコストのトレードオフが最適化されないまま運用されていたのです。
AutoTTSは戦略設計をアルゴリズムによる探索問題として再定義します。探索用LLMエージェントが推論制御ポリシーを繰り返し提案・テストし、事前収集した推論軌跡データを使ったオフライン再生環境で評価します。このアプローチにより、実際にモデルを都度推論させる必要がなく、わずか39.90ドル・160分で最適戦略の発見が可能になりました。発見された「Confidence Momentum Controller」は、信頼度の指数移動平均による停止判断、幅と深さの連動制御、合意形成中の枝への計算資源優先配分など、人間には設計困難な複合ルールを備えています。
Qwen3モデル(0.6B〜8Bパラメータ)での実験では、コスト重視モードでSelf-Consistency比69.5%のトークン削減を達成しつつ平均精度を維持しました。GPQA-Diamondベンチマークでは推論トークンが51万から15.1万に減少し、精度はわずかに向上。DeepSeek-R1モデルでもトークン消費をほぼ半減しながら最高精度を記録しています。
企業にとっての意義は2つあります。第一に、推論コストの大幅な削減です。LLMのAPI利用料はトークン単位で課金されるため、69.5%の削減はそのまま運用コスト圧縮につながります。第二に、自社モデルや独自タスクに特化した推論戦略を低コストで開発できる点です。AutoTTSのフレームワークとConfidence Momentum ControllerはGitHubで公開されており、既存のTTSコントローラーと差し替えて利用できます。