MS、AIエージェントの強化学習を「コード改修なし」で実現
出典:Microsoft公式
詳細を読む
Microsoft Research Asiaは、AIエージェントに強化学習(RL)を組み込むためのオープンソースフレームワーク「Agent Lightning」を発表しました。既存のエージェントコードをほとんど書き換えることなく、タスク実行データを用いて自律的な性能改善を可能にする画期的な技術です。
LLMベースのエージェントは複雑な工程でミスを犯しやすく、その改善には強化学習が有効とされてきました。しかし、従来の手法ではエージェントの設計自体を学習用に大幅に作り変える必要があり、開発者にとって極めて高い導入障壁となっていました。
本フレームワークは、エージェントの「タスク実行」と「モデル学習」を明確に分離するミドルウェアとして機能します。エージェントのあらゆる挙動を状態・行動・報酬のシーケンスに変換し、RLが学習可能な標準フォーマットとして統合します。
核となる「LightningRL」アルゴリズムは、一連のタスク完了後に各LLMリクエストの貢献度を分析します。個々のステップに適切な報酬を割り当てることで、PPOなどの一般的な単一ステップRLアルゴリズムとの互換性を確保しました。
この設計により、リソース効率も最適化されます。推論を行うエージェントランナーと学習を行うアルゴリズムを分離し、前者はCPU、後者はGPUといった柔軟な構成が可能です。開発者はAPIを切り替えるだけで、既存資産を維持したまま学習を開始できます。
MicrosoftはText-to-SQL、RAG(検索拡張生成)、数学的推論という3つの実用シナリオで検証を行い、すべてのケースで性能向上を確認しました。今後はプロンプトの自動最適化機能なども追加し、自律的に成長するAIシステムの実現を加速させる方針です。