a16zの研究者がLLMをテトリスで競わせるTetrisBenchを開発しました。このベンチマークはリアルタイムの空間的意思決定能力を測定するものであり、既存のテキストベースのベンチマークでは評価できない能力を可視化します。 興味深いことに、高度な推論モデルが必ずしもテトリスで優秀ではなく、モデルの特性によって大きな差が見られました。このようなゲームベースのベンチマークは、実際のエージェント性能をより正確に予測できる可能性があります。