百度ERNIE 5.0、画像・文書処理でGPT-5超えを主張

ERNIE 5.0の性能

ネイティブなオムニモーダルAI
画像・文書理解GPT-5超え
チャート読解など企業向け機能に強み
テキスト処理特化版も同時公開

百度のグローバル戦略

API経由のプレミアム提供
国際版ノーコードツールも展開
商用利用可能なOSSモデルも公開
オープンとクローズドの二刀流
詳細を読む

中国検索大手、百度(バイドゥ)は年次イベント「Baidu World 2025」で、最新の独自基盤モデル「ERNIE 5.0」を発表しました。このモデルは、OpenAIGPT-5GoogleGemini 2.5 Proを、特にグラフや文書の理解といった視覚タスクで上回る性能を持つと主張しており、激化するエンタープライズAI市場での世界的な優位性を目指します。

百度が公開したベンチマークによれば、ERNIE 5.0は特に文書認識(OCRBench)やグラフの質疑応答(ChartQAといった分野で、欧米の最先端モデルを凌駕する結果を示したとされています。これは、自動文書処理や財務分析など、企業のコア業務における実用性の高さを強くアピールするものです。

ERNIE 5.0は、テキスト、画像音声動画を統合的に処理・生成できる「ネイティブ・オムニモーダル」モデルとして設計されています。同社が最近公開したオープンソースモデルとは異なり、独自のプロプライエタリモデルとして、クラウドプラットフォーム「Qianfan」のAPIを通じて企業向けに提供されます。

料金体系はプレミアムモデルとして位置づけられていますが、米国の主要モデルと比較すると競争力のある価格設定が特徴です。例えば、GPT-5.1と比較して入力トークン単価が約3割安く、高性能とコスト効率の両立を目指す企業にとって魅力的な選択肢となり得るでしょう。

注目すべきは、高性能なプロプライエタリモデルと並行して、商用利用が可能な高性能オープンソースモデル「ERNIE-4.5-VL」も提供している点です。このオープンとクローズドの「二刀流」戦略により、大企業から開発者コミュニティまで幅広い層への浸透を図っています。

ERNIE 5.0の発表は、世界の基盤モデル開発競争が新たな段階に入ったことを示唆しています。性能評価の第三者による検証が待たれますが、百度の明確な企業向け戦略とグローバル展開への野心は、既存のAI市場の勢力図を塗り替える可能性を秘めています。