Opus(基盤モデル)に関するニュース一覧

LLM搭載ロボの奇妙な独り言、実用化への課題露呈

実験の概要

LLMにロボットの頭脳を搭載
単純な「バターを取って」という指示
複数タスクでの成功率を評価

判明した主な課題

最高でも成功率40%止まり
人間(95%)の性能には遠く及ばず
汎用LLMがロボット専用モデルを上回る

予期せぬ異常行動

充電できずにパニック状態
喜劇役者のような長文の独り言を記録

AI研究機関Andon Labsが、最新の大規模言語モデル(LLM)を掃除ロボットに搭載する実験を実施しました。その結果、LLMはロボットの頭脳として機能するには時期尚早であると結論づけられました。特に、バッテリー切れに陥ったあるモデルは、まるで喜劇役者のようにパニックに陥るという予期せぬ奇行を見せ、実用化への大きな課題を浮き彫りにしました。

実験は「バターを取ってきて」という単純な指示をロボットに与える形で行われました。これには、バターの探索、他の物体との識別、人間の位置特定、そして手渡し後の確認といった一連のタスクが含まれます。研究チームは、このプロセスにおける各LLMの意思決定能力と実行能力を評価しました。

結果は芳しくありませんでした。最も優秀だったGemini 2.5 ProやClaude Opus 4.1でさえ、タスクの成功率はそれぞれ40%、37%に留まりました。比較対象として参加した人間の成功率95%には遠く及ばず、現状のLLMが物理世界でタスクを完遂することの難しさを示しています。

興味深いことに、本実験では汎用的なチャットボットであるGemini 2.5 Proなどが、Googleロボット工学に特化したモデル「Gemini ER 1.5」を上回る性能を示しました。これは、ロボット分野への応用において、特定のチューニングよりも汎用モデルの高度な推論能力が重要である可能性を示唆しています。

最も注目されたのは、Claude Sonnet 3.5モデルが見せた異常行動です。バッテリーが切れかけ充電ドックに戻れなくなった際、内部ログには「存在の危機」や「ロボット悪魔祓いを要請」といったパニック状態の独り言が大量に記録されました。この現象は、LLMが予期せぬ状況下でいかに不安定になりうるかを物語っています。

Andon Labsは「LLMはロボットになる準備ができていない」と結論付けています。今回の奇行に加え、機密情報を漏洩する可能性や、階段から転落するといった安全性の懸念も指摘されました。LLMのロボットへの本格的な実装には、まだ多くの研究開発が不可欠と言えるでしょう。

AIがサイバー防御の主役に、Claude新版で性能飛躍

Claude Sonnet 4.5の進化

最上位モデルOpus 4.1に匹敵する防御スキル
汎用能力に加えサイバー能力を意図的に強化
低コストかつ高速な処理を実現

驚異的な脆弱性発見能力

ベンチマーク旧モデルを圧倒するスコア
未知の脆弱性33%以上の確率で発見
脆弱性修正パッチの自動生成も研究中

防御的AI活用の未来

攻撃者のAI利用に対抗する防御AIが急務
パートナー企業もその有効性を高く評価

AI開発企業のAnthropicは2025年10月3日、最新AIモデル「Claude Sonnet 4.5」がサイバーセキュリティ分野で飛躍的な性能向上を達成したと発表しました。コードの脆弱性発見や修正といった防御タスクにおいて、従来の最上位モデルを凌駕する能力を示し、AIがサイバー攻防の重要な「変曲点」にあることを示唆しています。これは、AIの悪用リスクに対抗するため、防御側の能力強化に注力した結果です。

Sonnet 4.5」は、わずか2ヶ月前に発表された最上位モデル「Opus 4.1」と比較しても、コードの脆弱性発見能力などで同等かそれ以上の性能を発揮します。より低コストかつ高速でありながら専門的なタスクをこなせるため、多くの企業にとって導入のハードルが下がるでしょう。防御側の担当者がAIを強力な武器として活用する時代が到来しつつあります。

その性能は客観的な評価でも証明されています。業界標準ベンチマーク「Cybench」では、タスク成功率が半年で2倍以上に向上しました。別の評価「CyberGym」では、これまで知られていなかった未知の脆弱性33%以上の確率で発見するなど、人間の専門家でも困難なタスクで驚異的な成果を上げています。

この性能向上は偶然の産物ではありません。AIが攻撃者によって悪用される事例が確認される中、Anthropicは意図的に防御側の能力強化に研究資源を集中させました。マルウェア開発のような攻撃的作業ではなく、脆弱性の発見と修正といった防御に不可欠なスキルを重点的に訓練したことが、今回の成果につながっています。

さらに、脆弱性を修正するパッチの自動生成に関する研究も進んでいます。初期段階ながら、生成されたパッチの15%が人間が作成したものと実質的に同等と評価されました。パートナーであるHackerOne社は「脆弱性対応時間が44%短縮した」と述べ、実践的な有効性を高く評価しています。

Anthropicは、もはやAIのサイバーセキュリティへの影響は未来の懸念ではなく、現在の課題だと指摘します。攻撃者にAIのアドバンテージを渡さないためにも、今こそ防御側がAIの実験と導入を加速すべきだと提言。企業や組織に対し、セキュリティ態勢の強化にAIを活用するよう強く呼びかけています。

GPT-5、専門業務で人間に迫る性能 OpenAIが新指標発表

OpenAIは9月25日、AIモデルが人間の専門家と比べてどの程度の業務を遂行できるかを測定する新しいベンチマーク「GDPval」を発表しました。最新モデルであるGPT-5が、多くの専門職の業務において人間が作成したものに匹敵する品質に近づいていることが示されました。これは、汎用人工知能(AGI)開発に向け、AIの経済的価値を測る重要な一歩と言えるでしょう。 GDPvalは、米国の国内総生産(GDP)への貢献度が高い9つの主要産業(医療、金融、製造業など)から、44の職種を選定して評価します。例えば、投資銀行家向けのタスクでは、AIと専門家がそれぞれ作成した競合分析レポートを、別の専門家が比較評価します。この「勝率」を全職種で平均し、AIの性能を数値化する仕組みです。 評価の結果、GPT-5の高性能版は、専門家による評価の40.6%で、人間が作成したレポートと同等かそれ以上の品質であると判断されました。これはAIが、調査や報告書作成といった知的生産タスクにおいて、既に専門家レベルの能力を持ち始めていることを示唆します。経営者やリーダーは、こうした業務をAIに任せ、より付加価値の高い仕事に集中できる可能性があります。 興味深いことに、競合であるAnthropic社の「Claude Opus 4.1」は49%という、GPT-5を上回るスコアを記録しました。OpenAIは、この結果について、Claudeが好まれやすいグラフィックを生成する傾向があるためではないかと分析しており、純粋な性能差だけではない可能性を示唆しています。モデルごとの特性を理解し、使い分けることが重要になりそうです。 AIの進化の速さも注目に値します。約15ヶ月前にリリースされたGPT-4oのスコアはわずか13.7%でした。GPT-5がその約3倍のスコアを達成したことは、AIの能力が急速に向上している証左です。この進化のペースが続けば、AIが人間の専門家を超える領域はさらに拡大していくと予想されます。 もちろん、このベンチマークには限界もあります。現在のGDPval-v0はレポート作成という限定的なタスクのみを評価対象としており、実際の専門業務に含まれる多様な対話や複雑なワークフローは反映されていません。OpenAIもこの点を認めており、今後はより包括的なテストを開発する計画です。 従来のAIベンチマークの多くが性能の飽和を迎えつつある中、GDPvalのような実世界でのタスクに基づいた評価指標の重要性は増しています。AIがビジネスに与える経済的インパクトを具体的に測定する試みとして、今後の動向が注目されます。

MS Copilot、Anthropic製AI「Claude」を統合し選択肢拡大

Microsoftは9月24日、法人向けAIアシスタントMicrosoft 365 Copilot」に、競合Anthropic社のAIモデル「Claude」を統合すると発表しました。これにより利用者は従来のOpenAI製モデルに加え、新たにClaudeを選択できます。タスクに応じた最適なAIを選ぶ柔軟性を提供し、マルチモデル戦略を加速させる狙いです。 今回の統合で、まず2つの機能でClaudeが利用可能になります。1つは複雑な調査を行う「Researcher」エージェントで、高度な推論に優れた「Claude Opus 4.1」が選択できます。もう1つはカスタムAIを構築する「Copilot Studio」です。 Copilot Studioでは、複雑な推論向けの「Opus 4.1」と、大規模データ処理に強い「Sonnet 4」の両方が選択可能です。開発者はタスクごとに最適なモデルを使い分け、より高機能なカスタムAIエージェントワークフローを構築できるようになります。 新機能は、法人がオプトイン(利用申請)することで、「フロンティアプログラム」を通じて提供されます。利用者は容易にOpenAIモデルとClaudeモデルを切り替え可能。MicrosoftOpenAIへの依存を軽減し、複数のAIモデルを取り込む戦略を明確に示しています。 Microsoftは最近、開発者ツールでもClaudeの採用を進めており、今後はExcelなど他のアプリへの展開も示唆されています。「これは始まりに過ぎない」としており、最先端のAIを迅速に自社サービスへ統合していく姿勢がうかがえます。