テトリスでLLMの能力差を可視化

TetrisBenchの発見

テトリスでLLMの判断速度を客観評価
推論モデルが予想外の苦戦
リアルタイム処理での能力差が鮮明に

ベンチマークの意義

既存テキストベース評価を補完
実世界エージェント性能の代理指標に
ゲームがAI能力評価の新たな場に
詳細を読む

a16zの研究者がLLMをテトリスで競わせるTetrisBenchを開発しました。このベンチマークはリアルタイムの空間的意思決定能力を測定するものであり、既存のテキストベースのベンチマークでは評価できない能力を可視化します。

興味深いことに、高度な推論モデルが必ずしもテトリスで優秀ではなく、モデルの特性によって大きな差が見られました。このようなゲームベースのベンチマークは、実際のエージェント性能をより正確に予測できる可能性があります。