テトリスでLLMの能力差を可視化

TetrisBenchの発見

テトリスでLLMの判断速度を客観評価

推論モデルが予想外の苦戦

リアルタイム処理での能力差が鮮明に

既存テキストベース評価を補完

実世界エージェント性能の代理指標に

ゲームがAI能力評価の新たな場に

出典：a16z.com

詳細を読む

a16zの研究者がLLMをテトリスで競わせるTetrisBenchを開発しました。このベンチマークはリアルタイムの空間的意思決定能力を測定するものであり、既存のテキストベースのベンチマークでは評価できない能力を可視化します。

興味深いことに、高度な推論モデルが必ずしもテトリスで優秀ではなく、モデルの特性によって大きな差が見られました。このようなゲームベースのベンチマークは、実際のエージェント性能をより正確に予測できる可能性があります。