Gemini Omni、自撮りから本人も見抜けない偽動画を生成

動画生成の実力と課題

Veo後継の動画生成モデル
写真・動画・テキストを入力に対応
一貫性は向上も不自然な変化が残存
編集指示への応答精度は改善途上

ディープフェイクの衝撃

自撮りから食事や旅行の偽映像を生成
家族も見抜けない精度を実証
月額20ドルで約20本生成可能
SNS上で通用するレベルに到達
詳細を読む

Googleが新たにリリースしたGemini Omniは、写真・動画・テキストなどあらゆる入力から動画を生成できる「anything-to-anything」モデルです。動画生成・編集プラットフォームFlow上で利用可能で、従来のVeoモデルの後継として位置づけられています。The Vergeの記者が実際にハンズオンレビューを行い、その実力と課題を検証しました。

レビューでは、ぬいぐるみの鹿を主人公にした冒険動画を生成するテストが行われました。キャラクターの一貫性はVeoから明確に改善され、プロンプトに忠実な映像が生成される場面も増えています。一方で、スカイダイビング中にぬいぐるみの向きが突然変わるなど、不自然な「AIジャンプスケア」も依然として残っています。蜂蜜の瓶が場面ごとに形状を変えるといった、オブジェクトの一貫性の問題も確認されました。

最も衝撃的だったのはディープフェイクの精度です。記者が無表情の自撮り動画を入力し、パスタを食べる映像やエッフェル塔前でバゲットをかじる映像を生成させたところ、10年間毎日顔を見ている夫でさえ本物と区別できないレベルの結果が得られました。AIの痕跡はフォークの不自然な音や背景人物の重複など細部に残るものの、SNS上では十分に通用する品質です。

動画生成にはクレジット制が採用されており、1本あたり15〜40クレジットを消費します。月額20ドルのAI Proプランで1,000クレジットが付与されますが、記者は約20本の生成と数回の編集で残り145クレジットまで減少しました。特定のビジョンに近づけるための試行錯誤を考えると、コストは決して安くありません。

テキストによる編集指示機能もVeoから改善されていますが、完璧とは言えません。鹿のぬいぐるみから角を除去するよう指示すると、該当シーンでは除去されたものの他のシーンに角が追加されるという矛盾が生じました。記者は「不気味の谷に深く入り込んでいる」と評しつつ、Googleアカウントとクレジットカードがあれば自宅の動画をハワイ旅行に変えられる時代になったと結んでいます。