Ai2、ハイブリッド型の得意トークンを解明

トランスフォーマー

得意な予測

名詞・動詞など内容語に強み
代名詞の参照先など文脈追跡
状態変化の逐次的な把握

苦手な予測

繰り返しトークンで優位消失
閉じ括弧の予測は注意機構が有利
長い反復ほど差が縮小

評価手法

全体lossでは差を見抜けず
トークン種別の絞り込み評価
詳細を読む

米Allen Institute for AI(Ai2)は6月25日、言語モデルの新アーキテクチャであるハイブリッド型が、標準的なトランスフォーマーと比べてどの種類のトークンを得意とするかを解明した研究を公開しました。同社の7B規模モデル「Olmo 3」(トランスフォーマー)と「Olmo Hybrid」を、データやトークナイザー、学習手法をそろえたうえで比較し、予測性能の差がほぼ構造の違いだけを反映するよう設計しています。

分析の結果、ハイブリッド型は名詞・動詞・形容詞といった意味を担うトークンや、代名詞が誰を指すかなど文脈を追わなければ予測できないトークンで明確に優れていました。一方で、入力中に既出の語句をそのまま繰り返すだけのトークンでは優位がほぼ消え、ここではトランスフォーマーが強みを発揮します。反復が長くなるほどハイブリッド型の差は縮まり、ゼロに近づきました。

この違いは両者の仕組みに由来します。トランスフォーマーは全層でアテンションを使い、過去の特定トークンを正確に呼び戻せる反面、入力が長くなると計算コストが急増します。ハイブリッド型は一部のアテンション層を残しつつ大半を再帰層に置き換え、固定サイズの圧縮された記憶で逐次処理するため、入力長によらずコストが一定に保たれるのが特徴です。

両モデルに記事やWikipedia、書籍、論文に加えPythonやHTMLなどの構造化テキストを与え、各トークンの予測精度の差を「loss gap」として測定しました。さらにAi2は1Bパラメータのトランスフォーマー、ハイブリッド、純粋な再帰モデルの3種を用い、特定トークンに絞ったフィルタ済みlossが学習初期から構造差を可視化できることも示しています。

研究が示す教訓は2点です。第一に、全トークン平均の単一lossはアーキテクチャ比較には大雑把すぎ、特定能力を試すトークンに絞ることで差が浮かび上がります。第二に、ハイブリッド型の優位は再帰層の状態追跡能力と関連する可能性があり、Ai2はこの知見を今後のハイブリッドモデル開発に生かす方針です。