MITがLLM改善と視覚進化研究を発表

新位置符号化手法

MIT・IBM共同開発のPaTH Attentionが状態追跡能力を向上
RoPEに代わるデータ依存型の動的位置符号化を実現
推論・長文脈・言語モデリングのベンチマークで優位
GPU高速処理に対応したハードウェア効率アルゴリズム

視覚進化サンドボックス

MITがAIエージェント視覚進化を再現するサンドボックス開発
タスクの種類が眼の構造を決定することを発見
ロボットドローン向けのタスク特化センサー設計に応用可能
詳細を読む

MITMIT-IBM Watson AI Labの共同研究チームは、トランスフォーマーアーキテクチャの根本的な限界を克服する新しい位置符号化手法「PaTH Attention」をNeurIPSで発表しました。

従来のRoPE(Rotary Position Encoding)はトークン間の相対距離のみに基づく静的な回転を割り当てますが、PaTH Attentionは各トークンの内容に依存した動的変換を累積させることで、単語間の意味の変化をパスとして追跡できます。これにより状態追跡や逐次的な推論が改善されます。

実験では、PaTH Attentionが診断タスクと実世界の言語モデリングタスクの両方で既存の注意機構を上回り、数万トークンに及ぶ長文脈でも安定した性能を示しました。また「忘却トランスフォーマー(FoX)」と組み合わせた「PaTH-FoX」システムでさらに性能が向上しています。

もう一つの研究では、MITの研究者らがAIエージェントを用いて視覚系の進化を再現する計算論的フレームワークを構築し、Science Advances誌に発表しました。カメラのセンサー・レンズ・絞り・プロセッサをパラメータ化したエージェント強化学習で世代を超えて眼を進化させます。

実験ではナビゲーションタスクでは複眼(昆虫や甲殻類のような眼)に、物体識別タスクではカメラ型の眼(虹彩と網膜を持つ眼)に進化することが分かりました。タスクの種類が眼の構造の違いを生み出す主要な要因であることが示されています。

このフレームワークはロボットドローンウェアラブルデバイス向けの新しいセンサー設計に応用できる可能性があり、エネルギー効率や製造上の制約のもとでタスク固有の最適な視覚システムを探索するための強力なツールとなり得ます。