Zhipu AI、視覚入力でツール直結のVLM公開 商用可
出典:VentureBeat
詳細を読む
中国のAIスタートアップZhipu AIは2025年12月8日、視覚言語モデル「GLM-4.6V」シリーズを公開しました。画像をテキスト変換せず直接ツールで処理するネイティブ機能を搭載し、MITライセンスにより商用利用も完全に自由です。
最大の特徴は、視覚情報を直接ツールの引数として渡せる点です。従来必要だった「画像からテキストへの変換」という中間プロセスを排除することで情報の損失を防ぎ、画像の切り抜きや検索といった高度な自動化を効率的に実行できます。
ラインナップは、複雑な推論に強い1060億パラメータの「106B」と、低遅延な90億パラメータの「Flash」の2種です。特にFlash版は利用料が無料であり、エッジデバイスやリアルタイム処理が必要なアプリ開発に最適です。
開発現場での実用性も高く、UIのスクリーンショットからピクセル単位で正確なHTMLやCSSを生成できます。12万8000トークンの長大なコンテキストに対応し、長時間の動画解析や大量のドキュメント処理も一度の推論で完結します。
本モデルはOpenAIのGPT-4Vなどと競合する性能を持ちながら、オープンソースとして公開されました。自社インフラでの運用やコンプライアンス順守が求められる企業にとって、柔軟かつ低コストなAI導入の有力な選択肢となるでしょう。
