AIリスク評価の新標準、Hugging Faceらが「RiskRubric.ai」を公開

2025年09月18日エコシステムエンジニアリスク脆弱性コンテンツセキュリティ

詳細を読む

AIプラットフォームのHugging Faceには50万を超えるモデルが存在しますが、その安全性を体系的に評価する方法はこれまでありませんでした。この課題を解決するため、同社はCloud Security Allianceなどと協力し「RiskRubric.ai」を立ち上げました。この構想は、AIモデルのリスクを標準化し、透明性の高い評価を提供することで、エコシステム全体の信頼性を高めることを目的とします。

評価は「透明性」「信頼性」「セキュリティ」など6つの柱に基づきます。各モデルは、1000以上の信頼性テストや200以上の敵対的セキュリティ調査など、自動化された厳格なテストを受けます。その結果は0から100のスコアとAからFの等級で明確に示され、発見された脆弱性や具体的な改善策も提供されるため、開発者はモデル選定の参考にできます。

実際にオープンモデルと商用モデルを同一基準で評価したところ、興味深い傾向が明らかになりました。まず、リスク分布は二極化しており、多くのモデルが安全な一方、性能の低いモデルも一定数存在します。これは「平均的なモデルが安全である」という思い込みが危険であることを示唆しており、組織は導入時に最低限の安全基準を設ける必要があります。

モデルによる評価のばらつきが最も大きかったのは、有害コンテンツの生成防止などを含む「安全性」の項目でした。重要なのは、セキュリティ対策を強化しているモデルほど、この安全性の評価も高くなる傾向が見られたことです。これは、技術的なセキュリティ投資が、社会的なリスクを低減させる上で直接的な効果を持つことを物語っています。

一方で、安全性を高めるための厳格な保護機能（ガードレール）が、逆に透明性を損なう可能性も指摘されています。例えば、モデルが理由を説明せず応答を拒否すると、利用者はシステムを「不透明だ」と感じかねません。セキュリティを確保しつつ、利用者の信頼を維持するためのバランス設計が今後の課題と言えるでしょう。

このようにリスク評価を標準化し公開することは、コミュニティ全体での安全性向上に繋がります。開発者は自らのモデルの弱点を正確に把握でき、他の開発者も修正や改善に貢献できます。Hugging Faceらは、こうした透明性の高い改善サイクルこそが、AIエコシステム全体の信頼性を高める鍵だと強調しています。