Meta新AIが動画で物理法則を習得、汎用ロボットへの道

「ピクセル」から「意味」の学習へ

従来のAIは細部に囚われ非効率
潜在表現で本質のみを学習
不要な情報を捨て効率的に処理

物理的直感と「驚き」の獲得

物理法則に反する現象を検知
テストで98%の高精度を記録
幼児のような物体恒常性を習得

ロボティクスへの展開と課題

少量データでロボット動作を計画
記憶保持時間の短さが課題
@pokamaru3のXポスト: 昨今のフィジカルAIが『新時代の主役」と扱われ、これまでのロボット工学が『過去』のように語られる見出しに、どうしても違和感が残りました。 ロボットは、ざっくりシステムとして分解すると、 ① 知覚(センサ・電装) ② 判断(制御・演算) ③ 実行(駆動・メカ) の3層のイメージと…
詳細を読む

Metaが開発した新AIモデル「V-JEPA」は、動画視聴のみで物理世界の法則を直感的に理解します。従来のAIが苦手としたノイズ処理を克服し、自律型ロボットなどへの応用が期待される画期的な技術です。幼児が経験を通じて世界を学ぶように成長する、その革新的な学習メカニズムと、実用化に向けた今後の展望を解説します。

従来のAIはピクセル単位の処理により、背景の些細な動きなど本質的でない情報に惑わされがちでした。対してV-JEPAは、映像を抽象化した潜在表現を用いることで、重要な情報のみを効率的に抽出する仕組みを採用し、この課題を克服しています。

具体的には、映像の一部を隠し、その欠損部分の「意味」を予測させることで学習を進めます。単なる画素の復元ではなく、文脈や物体の動きといった高次元の情報を捉える訓練を行うため、より人間に近い形での状況理解が可能になります。

その実力は「IntPhys」と呼ばれる物理的直感テストで証明されました。重力や物体の永続性に反する映像を見せると、AIは予測エラーという形で驚きを示し、その正答率は約98%に達しました。これは幼児が世界を学ぶプロセスに酷似しています。

最新版の「V-JEPA 2」は、わずか60時間分のデータでロボットの動作計画を学習するなど、実用化に向け進歩しています。一方で、記憶できる時間が短く「金魚並み」であるといった課題も残されており、長期的な因果関係の理解が次の技術的焦点です。