LLM記憶を0.12%の追加パラメータで実現する新手法

2026年05月21日 GitHub Qwen 検索推論 GPU エージェント

delta-memの仕組み

固定サイズ行列に履歴を圧縮

モデル本体の重みは凍結のまま

デルタルール学習で動的に更新

ゲート機構で忘却と記憶を制御

性能と効率の両立

Memory Agent Benchで29%→38%に向上

テスト時学習は26→50点にほぼ倍増

GPU消費量は未修正モデルとほぼ同等

実用化の方向性

RAGとのハイブリッド構成が現実解

出典：VentureBeat

詳細を読む

Mind Labと複数大学の研究チームは2025年5月、LLMエージェントの長期記憶問題を解決する新手法「delta-mem」を発表しました。この手法はエージェントの過去のやり取りを固定サイズの行列に圧縮し、モデル本体を変更せずに動的な記憶を実現します。追加パラメータはバックボーンモデルのわずか0.12%にとどまり、競合手法の76.40%と比較して圧倒的に軽量です。

従来のアプローチには大きな課題がありました。コンテキストウィンドウの拡張はコストが増大し、トークン数が増えるほど二次関数的に計算量が膨れ上がります。RAGは外部検索の遅延や統合の複雑さを伴います。パラメトリック手法は学習後に固定され、推論時の新情報に適応できません。delta-memはこれらの問題を、連想記憶の「オンライン状態」として履歴を保持することで解決しています。

技術的には、LLMの隠れ状態を行列に射影して過去の記憶を検索し、数値的な補正としてモデルの推論に適用します。更新は「ゲート付きデルタルール」で制御され、どの程度の旧記憶を保持し、新記憶をどれだけ反映するかを自動調整します。更新戦略は3種類あり、大規模モデルにはシーケンス単位の書き込み、小規模モデルにはマルチステート書き込みが有効と判明しました。

Qwen3-4B-Instructでの評価では、平均スコアが凍結ベースラインの46.79%から51.66%に向上しました。記憶集約型のMemory Agent Benchでは29.54%から38.85%へ改善し、テスト時学習サブタスクでは26.14から50.50へとほぼ倍増しています。32,000トークンの推論テストでも、GPU消費量は未修正モデルとほぼ同一でした。

研究チームはコードをGitHub、学習済みアダプタの重みをHugging Faceで公開しています。共著者のJingdi Lei氏は、delta-memは高速で継続的に更新される「作業記憶」として最適であり、正確な事実の検索にはRAGが依然として適していると述べています。企業のAIスタックは今後、モデル内部の短期作業記憶とRAGによる長期明示記憶の階層構造へ進化していくとの見通しを示しました。