Anthropicがアライメント検証ツールPetriを非営利団体に移管

2026年05月07日 Anthropic Claude Sonnet リスクイギリスプロンプト

Petri 3.0の主要改良

監査・対象モデルの分離で柔軟性向上

実環境に近いリアルな評価を実現

Bloom統合で深掘り分析が可能に

テスト中と気づかれにくい設計

非営利団体への移管

Meridian Labsが開発を継承

MCP寄贈に続く中立性確保の動き

InspectやScoutと統合した評価基盤構築

政府・研究者・企業に開放

出典：Anthropic公式

詳細を読む

Anthropicは2026年5月7日、自社が開発したオープンソースのアライメント検証ツール「Petri」をAI評価の非営利団体Meridian Labsに移管すると発表しました。同時にPetriをバージョン3.0へ大幅刷新し、AI模型の欺瞞や追従といった問題行動をより正確に検出できるようにしています。

Petriは2025年10月にAnthropicが公開したツールで、Claude Sonnet 4.5以降のすべてのモデル評価に使用されてきました。監査用モデルがシナリオを生成し、別の審判モデルがアライメント上の問題を採点する仕組みです。英国AI安全研究所（AISI）もAI研究妨害の傾向評価に採用するなど、外部機関での活用が広がっていました。

バージョン3.0では3つの大きな改良が加わりました。第一に、監査モデルと対象モデルを独立コンポーネントに分離し、用途に応じた柔軟なカスタマイズを可能にしました。第二に、「Dish」と呼ばれるアドオンにより、実際のシステムプロンプトやスキャフォールドを使った現実的なテスト環境を構築できます。これによりモデルが「テスト中」と察知して振る舞いを変えるリスクを低減します。

第三に、もう一つのオープンソースツールBloomとの統合により、特定の行動パターンをより深く分析できるようになりました。Petriの広範なスクリーニングとBloomの深掘り評価を組み合わせることで、アライメント検証の精度が向上します。

Meridian Labsへの移管は、AnthropicがModel Context Protocol（MCP）をLinux Foundationに寄贈した前例に続くものです。特定のAI開発企業から独立した組織が管理することで、評価結果の中立性と信頼性を業界全体で担保する狙いがあります。Meridian LabsではInspectやScoutといった既存ツールとともに、政府・独立研究者・企業が等しく利用できるオープンな評価技術スタックを構築していきます。