Zhipu AI、視覚入力でツール直結のVLM公開 商用可

視覚情報をツールへ直結

画像を直接ツールの引数に指定
テキスト変換の情報ロスを排除

用途に応じた2モデル展開

106B版は複雑な推論に特化
Flash版は利用無料で高速

実務を変える高い応用力

画面からコードを自動生成
MITライセンスで商用利用可
@nukonukoのXポスト: GLM-4.6V 出たよ まとめるのはあきらめますw とりあえず DGX Spark で動かすぞ! https://t.co/bia9xJ1EMd
詳細を読む

中国のAIスタートアップZhipu AIは2025年12月8日、視覚言語モデル「GLM-4.6V」シリーズを公開しました。画像をテキスト変換せず直接ツールで処理するネイティブ機能を搭載し、MITライセンスにより商用利用も完全に自由です。

最大の特徴は、視覚情報を直接ツールの引数として渡せる点です。従来必要だった「画像からテキストへの変換」という中間プロセスを排除することで情報の損失を防ぎ、画像の切り抜きや検索といった高度な自動化を効率的に実行できます。

ラインナップは、複雑な推論に強い1060億パラメータの「106B」と、低遅延な90億パラメータの「Flash」の2種です。特にFlash版は利用料が無料であり、エッジデバイスやリアルタイム処理が必要なアプリ開発に最適です。

開発現場での実用性も高く、UIのスクリーンショットからピクセル単位で正確なHTMLやCSSを生成できます。12万8000トークンの長大なコンテキストに対応し、長時間の動画解析や大量のドキュメント処理も一度の推論で完結します。

本モデルはOpenAIGPT-4Vなどと競合する性能を持ちながら、オープンソースとして公開されました。自社インフラでの運用やコンプライアンス順守が求められる企業にとって、柔軟かつ低コストAI導入の有力な選択肢となるでしょう。