Anthropic、生物学DBのAIエージェント対応を提唱

2026年06月08日 Anthropic Claude 検索 GPT-5 Sonnet 推論

ウイルス配列検索の課題

NCBI Virusのブラウザ依存検索

最新モデルでも精度16〜91%と不安定

同一プロンプトで結果が毎回異なる

エボラ解析で誤った結論導出の危険

決定論的ツールの効果

gget virusで精度99.7%達成

モデル間の性能差がほぼ解消

再現性と監査可能性の両立

安価なモデルでも高精度に

出典：Anthropic公式

詳細を読む

Anthropicの研究チームは2026年6月8日、AIエージェントが生物学データベースを正確に利用するには決定論的な検索レイヤーが不可欠だとする研究を発表しました。ウイルス学者が日常的に使うNCBI Virusデータベースを対象に、Claude、GPTなど最先端モデルの検索精度を検証した結果、いずれも科学研究に求められる100%の正確性には届かなかったと報告しています。

検証に使われたVirBenchは、40種の病原体にわたる120の現実的なクエリで構成されたベンチマークです。エージェント単独での精度は最高でも91.3%にとどまり、同じプロンプトに対してSonnet 4が266件中106件、15件、5件と毎回異なる結果を返すなど再現性にも課題がありました。こうした誤差はエボラウイルスの系統樹解析では起源の推定時期を数十年ずらし、治療薬の有効性評価でも異なる結論を導く危険があります。

この問題を解決するため、研究チームはNCBIと共同でgget virusという決定論的検索ツールを開発しました。複数のAPIを統合し、ウェブインターフェースと同等のフィルタリングをプログラムから実行できるようにしたものです。gget virusを組み込んだところ、全モデルで精度が90%以上に向上し、GPT-5.5では99.7%を達成しました。

研究チームは、モデルの推論能力が向上しても生物学データの基盤整備は依然として重要だと指摘しています。コンゴ民主共和国で進行中のエボラ流行のように、迅速なゲノム解析が求められる場面では、信頼性の高いデータ取得パイプラインが人命に直結するためです。今後、生物学データベースはAIエージェントを主要ユーザーとして想定した設計が必要になると提言しています。