AIの実務能力を測る新指標
新指標「Remote Labor Index」登場
データ企業Scale AIなどが開発
フリーランス業務での能力を測定
トップAIでも能力に限界
最高性能AIでも遂行率3%未満
複数ツール利用や多段階作業に課題
長期記憶や継続的な学習能力が欠如
詳細を見る
データ注釈企業Scale AIと非営利団体CAISが、AIエージェントの実務能力を測る新指標を発表。調査によると、主要AIはフリーランスの複雑な業務を3%未満しか遂行できず、AIによる大規模な業務代替がまだ現実的ではないことを示唆しています。AIの能力に関する過度な期待に警鐘を鳴らす結果です。
新指標「Remote Labor Index」は、デザインやデータ収集など実際のフリーランス業務をAIに与え、その遂行能力を測定します。中国のManusが最高性能を示し、xAIのGrokやOpenAIのChatGPTが続きましたが、いずれも低い成果でした。
AIの課題は、複数のツールを連携させ、多段階の複雑なタスクを計画・実行する能力にあると指摘されています。人間のように経験から継続的に学習したり、長期的な記憶を保持したりする能力の欠如も、実務における大きな壁となっているようです。
この結果は「AIが仕事を奪う」という過熱した議論に一石を投じます。過去にも同様の予測は外れてきました。今回の調査は、AIの現在の能力を客観的に評価する必要性を示唆しており、技術の進歩が必ずしも直線的ではないことを物語っています。
OpenAIのベンチマーク「GDPval」はAIが人間に近づいていると示唆しましたが、今回の指標は実世界に近いタスクでは大きな隔たりがあることを明らかにしました。指標の設計によってAIの能力評価は大きく変わることを示しています。
Amazonが人員削減の一因にAIを挙げるなど、AIと雇用の関係が注目される中、その真の実力を見極めることは不可欠です。AIを脅威と見るだけでなく、生産性を高めるツールとして活用する視点が、今後ますます重要になるでしょう。
出典:WIRED