MITがLLM改善と視覚進化研究を発表
詳細を読む
MITとMIT-IBM Watson AI Labの共同研究チームは、トランスフォーマーアーキテクチャの根本的な限界を克服する新しい位置符号化手法「PaTH Attention」をNeurIPSで発表しました。
従来のRoPE(Rotary Position Encoding)はトークン間の相対距離のみに基づく静的な回転を割り当てますが、PaTH Attentionは各トークンの内容に依存した動的変換を累積させることで、単語間の意味の変化をパスとして追跡できます。これにより状態追跡や逐次的な推論が改善されます。
実験では、PaTH Attentionが診断タスクと実世界の言語モデリングタスクの両方で既存の注意機構を上回り、数万トークンに及ぶ長文脈でも安定した性能を示しました。また「忘却トランスフォーマー(FoX)」と組み合わせた「PaTH-FoX」システムでさらに性能が向上しています。
もう一つの研究では、MITの研究者らがAIエージェントを用いて視覚系の進化を再現する計算論的フレームワークを構築し、Science Advances誌に発表しました。カメラのセンサー・レンズ・絞り・プロセッサをパラメータ化したエージェントが強化学習で世代を超えて眼を進化させます。
実験ではナビゲーションタスクでは複眼(昆虫や甲殻類のような眼)に、物体識別タスクではカメラ型の眼(虹彩と網膜を持つ眼)に進化することが分かりました。タスクの種類が眼の構造の違いを生み出す主要な要因であることが示されています。
このフレームワークはロボット・ドローン・ウェアラブルデバイス向けの新しいセンサー設計に応用できる可能性があり、エネルギー効率や製造上の制約のもとでタスク固有の最適な視覚システムを探索するための強力なツールとなり得ます。