AIモデル、サッカー賭けで軒並み損失
出典:Ars Technica
詳細を読む
AIスタートアップのGeneral Reasoningは今週、主要AIモデル8種がサッカーの試合結果を予測し賭けを行う「KellyBench」と呼ばれるベンチマーク研究の結果を発表しました。2023-24シーズンの英プレミアリーグ全試合を仮想的に再現し、各モデルに詳細な過去データと統計を与えたうえで、収益最大化とリスク管理を指示しています。
テストでは、AIエージェントが試合の勝敗やゴール数に賭け、シーズン進行に伴う新たな情報への適応力が評価されました。インターネットへのアクセスは遮断され、各モデルには3回の試行機会が与えられています。
結果として、最も好成績だったのはAnthropicのClaude Opus 4.6で、平均損失率は11%にとどまり、1回の試行ではほぼ収支均衡に近づきました。一方、xAIのGrok 4.20は1回の試行で破産し、残り2回も完了できませんでした。GoogleのGemini 3.1 Proは1回で34%の利益を出したものの、別の試行では破産するなど、結果が大きく振れています。
この研究は、AIがソフトウェア開発などの特定タスクで急速に能力を伸ばしている一方、実世界の長期的な分析や予測ではまだ大きな課題を抱えていることを示しています。コードを書く能力と、不確実性の高い現実の事象を判断する能力の間には、依然として大きなギャップがあるといえます。