AIモデル、サッカー賭けで軒並み損失

2026年04月11日 Google Anthropic xAI Gemini Claude Grok

KellyBenchの概要

英プレミアリーグ全試合で検証

8つの主要AIモデルが参加

実世界の予測能力を測定

各モデルの成績

Claude Opusが最善で損失11%

Grok 4.20は破産を経験

Gemini 3.1 Proは結果にばらつき

示唆される課題

コード生成と実世界分析の能力差

長期的な適応力に限界

出典：Ars Technica

詳細を読む

AIスタートアップのGeneral Reasoningは今週、主要AIモデル8種がサッカーの試合結果を予測し賭けを行う「KellyBench」と呼ばれるベンチマーク研究の結果を発表しました。2023-24シーズンの英プレミアリーグ全試合を仮想的に再現し、各モデルに詳細な過去データと統計を与えたうえで、収益最大化とリスク管理を指示しています。

テストでは、AIエージェントが試合の勝敗やゴール数に賭け、シーズン進行に伴う新たな情報への適応力が評価されました。インターネットへのアクセスは遮断され、各モデルには3回の試行機会が与えられています。

結果として、最も好成績だったのはAnthropicのClaude Opus 4.6で、平均損失率は11%にとどまり、1回の試行ではほぼ収支均衡に近づきました。一方、xAIのGrok 4.20は1回の試行で破産し、残り2回も完了できませんでした。GoogleのGemini 3.1 Proは1回で34%の利益を出したものの、別の試行では破産するなど、結果が大きく振れています。

この研究は、AIがソフトウェア開発などの特定タスクで急速に能力を伸ばしている一方、実世界の長期的な分析や予測ではまだ大きな課題を抱えていることを示しています。コードを書く能力と、不確実性の高い現実の事象を判断する能力の間には、依然として大きなギャップがあるといえます。