SenseTime、高速画像生成の新モデルを公開
詳細を読む
米国の制裁対象である中国AI企業SenseTimeは4月29日、オープンソースの画像生成モデル「SenseNova U1」を公開しました。同モデルは画像をテキストに変換せず直接処理する独自技術「NEO-Unify」を採用しており、米国の競合モデルを大幅に上回る速度で画像の生成と解釈が可能だと同社は主張しています。
U1の最大の特徴は、画像をネイティブに「読む」能力にあります。従来のモデルが画像を一度テキストに変換して処理するのに対し、U1は画像のまま推論を行うことで処理速度を向上させ、必要な計算資源を削減しています。共同創業者のDahua Lin氏は「モデルの推論プロセスはもはやテキストに限定されない」と述べています。モデルはPCやスマートフォンでも動作可能な軽量設計で、幅広い活用が期待されます。
注目すべきは、U1が中国製チップで動作する点です。公開日にはCambricon、Biren Technologyなど10社の中国半導体メーカーが互換性を発表しました。米国の輸出規制により最先端AI半導体へのアクセスが制限される中、中国製チップへの対応は戦略的に重要な意味を持ちます。SenseTimeはHugging FaceとGitHubでモデルを無料公開しており、中国企業がオープンソースAIの主要な貢献者となっている傾向をさらに強めています。
技術的な性能面では、U1は市場の全オープンソースモデルを上回る画質を実現したとSenseTimeは主張しています。AlibabaのQwenやByteDanceのSeedreamといった中国のクローズドソースモデルに匹敵する一方、OpenAIのGPT-Image-2.0にはまだ及ばないとされています。ただし速度面ではこれらすべてのモデルを凌駕するとのことです。
SenseTimeはかつて顔認識技術で世界をリードしていましたが、ChatGPT以降の生成AIブームでDeepSeekやMiniMaxなど新興企業に後れを取っていました。同社はオープンソース戦略により研究者からのフィードバックを得て反復速度を高める方針に転換。Lin氏は「オープンかクローズドかではなく、反復の速度こそが勝敗を分ける」と語っています。また、この技術はロボットが視覚情報を高速に処理するうえで特に有用であり、中国のヒューマノイドロボット市場への展開も見据えています。