MIT技術でAIが自律的に進化へ

チューニング基盤モデルMIT

SEAL技術の概要

LLMが自律的に自己改善
合成データを生成し学習

具体的な性能

知識タスクで大幅な性能向上
GPT-4.1が生成したデータを上回る
フューショット学習でも成功

今後の課題と展望

災害的忘却のリスク
計算コストが課題
モデルの大型化で適応能力向上
詳細を読む

マサチューセッツ工科大学(MIT)の研究チームが、大規模言語モデル(LLM)が自らを改善する技術「SEAL」の改良版を公開し、AIの自律的な進化が現実味を帯びてきました。この技術は、LLMが自ら合成データを生成してファインチューニングを行うことで、外部からの継続的なデータ供給や人間の介入なしに性能を向上させることを可能にします。

SEALの核心は、モデルが「自己編集」と呼ばれる自然言語の指示を生成し、それに基づいて自らの重みを更新する点にあります。これは、人間が学習内容を再構成して理解を深めるプロセスに似ており、従来のモデルがデータをそのまま受け身で学習するのとは一線を画します。

性能評価では、SEALは目覚ましい成果を上げています。新たな事実知識を取り込むタスクでは、正答率を33.5%から47.0%へと向上させ、これはGPT-4.1が生成したデータを使った場合を上回りました。また、少数の例から学ぶフューショット学習でも、成功率を20%から72.5%に引き上げています。

技術的には、SEALは「内側ループ」で自己編集による教師ありファインチューニングを行い、「外側ループ」で強化学習によってより有益な編集を生成する方策を学ぶ、という二重ループ構造を採用しています。計算効率を高めるため、効率的なファインチューニング手法であるLoRAが活用されています。

しかし、課題も残されています。新たな情報を学習する際に、以前に学習した能力が低下する「災害的忘却」のリスクや、一つの編集を評価するのに30~45秒かかる計算コストの高さが挙げられます。研究チームは、強化学習がこの忘却を緩和する可能性があると指摘しています。

それでも、この技術がもたらすインパクトは計り知れません。AIコミュニティからは「凍結された重みの時代の終わり」との声も上がっており、モデルが環境の変化に合わせて進化し続ける、より適応的でエージェント的なAIシステムへの道を開くものと期待されています。