AllenAI、自律的にモジュール化するMoEモデルEMOを公開
EMOの技術的特徴
従来MoEとの違い
公開内容と展望
詳細を読む
Allen Institute for AI(AllenAI)は2026年5月8日、事前学習の過程でエキスパートが自律的にモジュール構造を獲得する新しいMixture-of-Experts(MoE)モデル「EMO」を公開しました。EMOは全128エキスパート中わずか12.5%(16エキスパート)のみを使用しても、フルモデルに近い性能を維持できる点が最大の特徴です。モデル、学習コード、ベースラインがHugging Face上でオープンに提供されています。
従来のMoEモデルでは、各トークンが独立にエキスパートを選択するため、前置詞や冠詞といった表層的な言語パターンでエキスパートが特化してしまう問題がありました。その結果、特定タスクに必要なエキスパートだけを取り出して使うことが困難でした。EMOはこの課題を、同一文書内のトークンが共通のエキスパートプールからルーティングする制約を導入することで解決しています。
この文書単位のルーティング制約により、EMOのエキスパートは健康・医療、米国政治、映画・音楽といった意味的に一貫したドメインに自然と分化します。人間が事前にドメインラベルを定義する必要がなく、学習データから自律的にモジュール構造が創発される点が画期的です。学習時にはプールサイズをランダムにサンプリングすることで、推論時にさまざまなサブセットサイズに対応可能としています。
ベンチマーク評価では、全エキスパート使用時に標準MoEと同等の汎用性能を達成しつつ、エキスパートを25%に削減しても精度低下はわずか約1%にとどまりました。12.5%まで削減した場合でも約3%の低下で済む一方、標準MoEは同条件でランダム水準まで性能が崩壊します。タスク向けエキスパート選択も少数の例示で十分に機能することが確認されています。
AllenAIは今回の公開を「大規模疎モデルのモジュール化に向けた第一歩」と位置づけています。エキスパートサブセットの選択・合成手法の改善、モジュール単位での更新、解釈可能性や制御性の向上など、今後の研究課題も多く残されています。巨大モデルの効率的なデプロイやドメイン適応を求める企業にとって、メモリと精度のトレードオフを大幅に改善する実用的な選択肢となる可能性があります。