Ai2が言語指示で3D動作を予測するモデル公開

2026年06月17日動画生成シミュレーション画像動画ロボットロボティクス

モデルの概要

言語指示で未来の3D動作を予測

基盤はMolmo 2を採用

物体に紐づく3D点群で表現

自己回帰版とフロー版の2種

データと性能

116万本の動画からMolmoMotion-1Mを構築

検証用ベンチPointMotionBenchも公開

ロボット制御で成功率76.3%

重み・データをオープン公開

出典：Hugging Face

詳細を読む

米Allen Institute for AI（Ai2）は6月17日、言語指示に基づいて物体の未来の3次元動作を予測するモデル「MolmoMotion」を公開しました。動画フレームと物体上の3D点群、そして「テーブル上の木製ボウルを動かして回転させる」といった行動の指示文を与えると、それらの点が数秒先にどう動くかを3D空間で予測します。動きを観測する従来モデルと異なり、動く前に先を読む点が特徴です。

MolmoMotionは同社の視覚言語モデルMolmo 2をバックボーンに使い、指示文と画像内の物体・点を結びつけます。動作の表現には、物体表面に紐づく疎な3D点の軌跡を採用しました。人体や剛体などのテンプレートに依存せず、カメラの視点が変わっても一貫し、ロボットや動画生成にそのまま渡せる汎用性を重視した設計です。

学習には、行動説明と対応づいた大規模な3D軌跡データが必要でしたが、既存データは小規模で領域も限られていました。そこで同社は、制約のない動画から物体に紐づく3D軌跡を自動抽出するパイプラインを構築し、116万本の動画からMolmoMotion-1Mを作成しました。736種類の動作と5600種類の物体を網羅する、現時点で最大級のデータ群です。

あわせて、人手で検証した評価用ベンチマークPointMotionBenchも公開しました。111カテゴリの物体と61種類の動作にわたる2700本の動画クリップを収録し、予測した3D軌跡が実際の動きとどれだけ一致するかを定量評価します。同ベンチマークで、MolmoMotionは映像生成型や従来の3D手法を含む既存のすべての手法を上回りました。

応用面では、ロボットの計画と動画生成の両方で効果が確認されています。シミュレーション上の物体配置タスクで、Molmo 2をそのまま使った場合の成功率56.0%に対し、MolmoMotionを用いると76.3%に向上し、学習も高速でした。動画生成では、予測した軌跡を入力に加えることで、指示通りの細かい動きをより忠実に再現できたといいます。

課題も残ります。学習時に物体あたり8点の点群しか使わないため、複雑な変形を伴う動きの表現には限界があります。それでも同社は、モデルの重みとデータ、ベンチマークをすべてオープンに公開しました。観測だけでなく予測こそ機械知能の根幹だとし、ロボティクスや動画分野での応用拡大を見込んでいます。