OpenAIが生命科学研究向けAI評価基準を公開

2026年06月17日 OpenAI 専門家推論創薬ベンチマーク

ベンチマークの中身

専門家執筆の750課題

7つの研究工程と7生物分野を網羅

創薬経験を持つ博士173人が作成

総計1万9020項目の評価基準

事実暗記でなく実務的判断を測定

課題の79%が複数の推論を要求

図表やPDFなど添付資料の解釈を必須化

詳細を読む

OpenAIは2026年6月17日、生命科学研究の現場作業をどこまでAIが支援できるかを測る新ベンチマークLifeSciBenchを公開しました。創薬の実務経験を持つ博士号レベルの科学者が課題を設計し、断片的な証拠の解釈や実験設計といった研究レベルの判断を評価対象に据えた点が特徴です。

従来の生命科学向け評価は、答えが一意に定まる事実確認型の設問に偏り、研究全体の幅広い能力を捉えきれていませんでした。OpenAIはこの評価の隙間を埋めることを狙い、現役の科学者が日常的に使う作業工程を調査したうえで課題を組み立てています。

ベンチマークは750課題を含み、証拠の取り扱い、分析、設計と最適化、科学的推論、検証と運用、橋渡し研究など7つの工程と7つの生物分野にまたがります。課題の79%は複数の推論や意思決定の段階を要し、1課題あたり平均4段階に及びます。

課題は173人の専門家が作成し、各自が博士号レベルの訓練とバイオ・製薬業界の経験を持ちます。受理された課題は平均6回の自動レビューと2回以上の専門家レビューを経ており、関連分野で90%以上の合意が得られたものだけが採用されました。

採点は課題ごとの詳細なルーブリックで行われ、全体で1万9020項目、1課題あたり平均25項目に分解されます。最終的な答えの正しさだけでなく、結論に至る過程が科学的に妥当で実務に役立つかまでを評価する設計です。

添付資料は図表やPDF、配列ファイルなど1062点に上り、半数超の課題が少なくとも1つの資料の解釈を求めます。実際の評価例ではFDA会議に向けた遺伝子治療データの批評など、現場で直面する難題がそのまま課題化されています。