AllenAI、自律的にモジュール化するMoEモデルEMOを公開

EMOの技術的特徴

全128エキスパート中12.5%で高精度維持
文書単位のルーティングで意味的モジュール化を実現
1Bアクティブ・14BパラメータのMoE構成
グローバル負荷分散で安定学習を達成

従来MoEとの違い

標準MoEは前置詞等の表層パターンに特化
EMOは健康・政治等の意味領域で自律分化
エキスパート削減時の性能劣化が大幅に軽減

公開内容と展望

モデル・ベースライン・学習コードを全公開
モジュール合成や解釈可能性の研究基盤に
詳細を読む

Allen Institute for AI(AllenAI)は2026年5月8日、事前学習の過程でエキスパートが自律的にモジュール構造を獲得する新しいMixture-of-Experts(MoE)モデル「EMO」を公開しました。EMOは全128エキスパート中わずか12.5%(16エキスパート)のみを使用しても、フルモデルに近い性能を維持できる点が最大の特徴です。モデル、学習コード、ベースラインがHugging Face上でオープンに提供されています。

従来のMoEモデルでは、各トークンが独立にエキスパートを選択するため、前置詞や冠詞といった表層的な言語パターンでエキスパートが特化してしまう問題がありました。その結果、特定タスクに必要なエキスパートだけを取り出して使うことが困難でした。EMOはこの課題を、同一文書内のトークンが共通のエキスパートプールからルーティングする制約を導入することで解決しています。

この文書単位のルーティング制約により、EMOのエキスパートは健康・医療米国政治映画・音楽といった意味的に一貫したドメインに自然と分化します。人間が事前にドメインラベルを定義する必要がなく、学習データから自律的にモジュール構造が創発される点が画期的です。学習時にはプールサイズをランダムにサンプリングすることで、推論時にさまざまなサブセットサイズに対応可能としています。

ベンチマーク評価では、全エキスパート使用時に標準MoEと同等の汎用性能を達成しつつ、エキスパートを25%に削減しても精度低下はわずか約1%にとどまりました。12.5%まで削減した場合でも約3%の低下で済む一方、標準MoEは同条件でランダム水準まで性能が崩壊します。タスク向けエキスパート選択も少数の例示で十分に機能することが確認されています。

AllenAIは今回の公開を「大規模疎モデルのモジュール化に向けた第一歩」と位置づけています。エキスパートサブセットの選択・合成手法の改善、モジュール単位での更新、解釈可能性や制御性の向上など、今後の研究課題も多く残されています。巨大モデルの効率的なデプロイやドメイン適応を求める企業にとって、メモリと精度のトレードオフを大幅に改善する実用的な選択肢となる可能性があります。