Google、Gemini APIに3段階の推論ティアを新設

Flex推論の特徴

標準APIの半額で利用可能
同期インターフェースで実装が容易
バッチAPI不要で非同期管理を排除
CRM更新や大規模シミュレーション向け

Priority推論の特徴

ピーク時も最高の信頼性を保証
上限超過時はStandard tierへ自動降格
応答にティア情報を付与し透明性を確保
リアルタイム顧客対応や即時判定に最適
詳細を読む

Googleは2026年4月2日、Gemini APIにFlexPriorityの2つの新サービスティアを追加しました。既存のStandardと合わせて3段階となり、開発者はコストと信頼性を用途に応じて柔軟に選択できるようになります。

AIがチャットから自律エージェントへ進化するなか、開発者はバックグラウンド処理とユーザー対話型処理という2種類のロジックを管理する必要がありました。従来は同期APIと非同期バッチAPIを使い分ける必要があり、アーキテクチャが複雑化していたのです。

Flex推論は標準APIの半額で利用できるコスト最適化ティアです。レイテンシ許容型のワークロード向けで、バッチAPIと異なり同期インターフェースのため、入出力ファイル管理やジョブのポーリングが不要になります。

Priority推論はプレミアム価格で最高水準の信頼性を提供します。ピーク時でもリクエストが優先処理され、トラフィックが上限を超えた場合はStandard tierへ自動的に降格されるため、アプリケーションの継続稼働が確保されます。

両ティアともリクエストのservice_tierパラメータを設定するだけで利用でき、GenerateContentおよびInteractions APIに対応しています。Priorityは有料Tier 2/3プロジェクトで利用可能です。