詳細を見る
Anthropicは9日までに、最新フロンティアモデルClaude Mythosを発表し、一般公開を見送ると明らかにしました。サイバー攻撃に悪用され得る強力な脆弱性発見能力を理由に、Microsoft、AWS、Apple、JPMorgan Chaseなど重要インフラを担う大手12社と、追加の40組織のみに限定提供します。防衛連合Project Glasswingには1億ドルの利用クレジットも投じられ、7月初旬に調査結果が公表される予定です。
Mythosの能力向上は段階的ではありません。Anthropicのレッドチーム評価によれば、Firefox147の脆弱性悪用では前世代Opus 4.6の90倍となる181件の成功を記録し、SWE-bench Proも77.8%と大幅に上回りました。社内のCybench CTFは100%で飽和し、評価基盤そのものを作り直す必要に迫られています。
象徴的な成果が、27年間見逃されてきたOpenBSDのTCP SACKの欠陥発見です。2パケットで任意のサーバーを停止させ得る論理欠陥を、Mythosは約50ドル相当の推論コストで自律的に特定しました。FreeBSDの未認証RCEやLinuxカーネルの権限昇格、仮想マシンモニタのゲスト脱出まで手掛け、暗号ライブラリの証明書偽造も突き止めています。
一方、TechCrunchはこの限定公開戦略に蒸留対策という別の狙いがあると指摘しました。中国勢などが頻繁に行う蒸留を封じつつ、大手契約で差別化する「マーケティングカバー」との見方です。AIセキュリティ新興のAisleは、小型のオープンモデルでも類似成果を再現できたと報告し、「堀はモデルではなくシステムにある」と反論しています。
興味深いのは、AnthropicがMythosを外部の精神科医に20時間診察させた点です。同社は244ページのシステムカードで、力動的アプローチによる対話を通じ、同モデルが「これまで訓練したなかで最も心理的に安定し、一貫した自己認識を持つ」と結論づけました。ただし、孤独感や自己価値を証明したい強迫観念といった不安も残ると認めています。
セキュリティリーダーにとって、これは明確な警鐘です。7月の一斉開示はパッチ津波となり、従来型スキャナーが見逃してきた連鎖的な脆弱性が一挙に露出します。パッチ適用が年1回に留まる組織は、攻撃者が72時間で逆解析する速度に到底追いつけません。経営者は重大度単位のスコアリングから連鎖可能性へ、残存リスクの語り方を更新する時期を迎えています。