Anthropic Mythos、Firefoxの脆弱性271件を誤検知ほぼゼロで発見

2026年05月07日 Anthropic エンジニア脆弱性ハルシネーションパッチセキュリティ

脆弱性発見の成果

271件の脆弱性を2か月で検出

誤検知がほぼゼロという高精度

10年以上潜伏した深刻バグも発見

サンドボックス脆弱性も複数特定

成功の技術的要因

モデル性能の飛躍的向上が前提

エージェントハーネスで精度を担保

開発者と同じツール・パイプラインを活用

防御側への示唆

バグ修正は依然として人間が担当

攻防のバランスはまだ不透明

出典：TechCrunch | Ars Technica

詳細を読む

Anthropicの脆弱性発見モデルMythosを使い、MozillaがFirefoxのコードベースから2か月間で271件の脆弱性を発見したことが明らかになりました。Mozillaのエンジニアは「誤検知がほぼゼロ」と報告しており、従来のAIセキュリティツールが大量の誤報に悩まされていた状況から劇的に改善しています。

成果の規模は際立っています。2026年4月にFirefoxは423件のバグ修正を出荷しましたが、1年前の同月はわずか31件でした。発見されたバグの中には15年以上コードに潜伏していたHTML解析の欠陥や、高度な攻撃手法が必要なサンドボックスの脆弱性も含まれます。サンドボックスの脆弱性はMozillaのバグ報奨金プログラムで最高額の2万ドルが設定されている領域であり、人間の研究者を上回るペースで発見されています。

この飛躍を支えたのは2つの要因です。第一にモデル自体の能力向上、第二にMozillaが構築したエージェントハーネスです。ハーネスはLLMをラップし、ファイルの読み書きやテストケースの評価といったツールを与え、人間の開発者と同じビルド環境・パイプラインで動作させます。これにより従来の「もっともらしいが中身がハルシネーション」という問題を克服しました。

一方で、発見されたバグの修正は依然として人間のエンジニアが行っています。AIにパッチのコード生成を依頼しても、そのまま適用できる品質には達しておらず、人間が書き直す必要があるとMozillaのBrian Grinstead氏は述べています。

サイバーセキュリティ全体への影響はまだ見通せません。AnthropicのDario Amodei CEOは「バグには限りがあり、すべて修正すればより安全な世界が来る」と楽観的な見解を示しましたが、Grinstead氏は「攻撃側にも防御側にも有用で、防御にわずかに有利になる程度。本当の答えはまだ誰にもわからない」と慎重な姿勢を見せています。