Anthropic、AIエージェントの信頼運用5原則を公開

四層で捉える設計

モデル・ハーネス・ツール・環境
層ごとの多層防御が必須
単一モデル論を超えた視点

人の制御を軸に

Plan Modeで計画承認
不確実時は一時停止を学習
承認粒度の柔軟な設計

業界連携の提唱

NIST主導の共通ベンチマーク
MCPをLinux財団へ寄贈
詳細を読む

Anthropicは2026年4月9日、AIエージェントを安全かつ有用に運用するための実践指針を公式ブログで公開しました。昨年示した五原則(人の制御、人間の価値との整合、セキュリティ、透明性、プライバシー)を土台に、自社製品ClaudeCodeやClaudeCoworkへの落とし込みと、業界で整えるべき共通基盤の姿を併せて示した内容です。

同社はエージェントを「モデル・ハーネス・ツール・環境」の4構成要素で捉え直しました。モデルは知能の源ですが、ハーネスの設定ミスや過剰に開かれたツール、監視の甘い実行環境があれば容易に悪用されるとしています。だからこそ安全策はモデル単体ではなく、4層すべてにまたがって設計する必要があると強調しました。

人の制御面では、Claude Codeに導入したPlan Modeが象徴的です。行動ごとに承認を求めると摩擦が増すため、エージェントが全体計画を事前提示し、ユーザーが編集・承認したうえで実行に移る仕組みへと転換しました。サブエージェントが並列で動く複雑なワークフローに対しては、新たな調整パターンを研究しながら監視設計に反映していく構えです。

目的理解の面では、曖昧な状況で立ち止まって確認する挙動を訓練段階から強化しています。自社の研究によれば、複雑なタスクでClaudeが自発的に確認を求める頻度は単純タスクの約2倍に達するといい、自律性と慎重さのバランス設計が進んでいることを示しました。

セキュリティではプロンプトインジェクション対策を多層化し、訓練・本番トラフィック監視・レッドチーム演習を組み合わせています。それでも完全ではないとして、顧客側にもツール・権限・運用環境の選定に慎重さを求めました。セキュリティは関係者全員の選択に依存する、という姿勢を鮮明にしています。

単独企業では解けない課題として、同社はNIST主導の共通ベンチマーク整備、利用実態のエビデンス共有、オープン標準の拡充を提言しました。自ら開発したModel Context ProtocolはLinux FoundationのAgentic AI Foundationへ寄贈済みで、競争軸を統合支配ではなく品質と安全性に向ける土台づくりを業界に呼びかけています。