OpenAI、計算生物学の判断力を測る新基準

GeneBench-Proとは

計算生物学向けの研究水準ベンチマーク
10領域129問で構成
曖昧なデータでの判断力を評価
全問を合成データで作成

モデルの成績

GPT-5.6 Solが最高31.5%
GPT-5は当初5%未満
推論量の増加で正答率向上
詳細を読む

OpenAIは6月30日、計算生物学における研究水準の判断力を測る新ベンチマーク「GeneBench-Pro」を発表しました。ゲノミクス、定量生物学、トランスレーショナル医療にまたがる129問で構成され、曖昧で雑然としたデータからAIエージェントが適切な解析手法を選び、意思決定に直結する結論へ至れるかを問います。事実の暗記や定型作業ではなく、研究現場で求められる高次の判断を評価対象とした点が特徴です。

同社はこうした判断力を研究のセンスと定義します。どの問いをデータが支えられるか、初期の診断結果に応じて推定対象をどう変えるか、当初の計画をいつ修正すべきか、といった一連の判断の連鎖を指します。各問題は現実的で乱れたデータセットと簡潔な実験背景、そして下流の意思決定に結びついた推定対象を与え、モデルに探索と試行錯誤を求めます。

ベンチマークの信頼性を保つため、全問題が合成データで作られています。データ生成過程を完全に把握しているため、複雑さを調整でき、もっともらしいが誤った解析が確実に不正解となることを検証できます。さらにトレース分析で情報漏えいや抜け道を点検し、正解が正しい解析経路の選択に依存するよう設計しました。

評価では、同社最強のGPT-5.6 Solが最高推論レベルで28.7%、Proモードで31.5%の正答率を記録しました。初代GeneBench開発当初のGPT-5が5%未満だったことと比べ、大きな前進です。テスト時の計算量を増やすほど成績が伸び、最高レベルではGPT-5.2の約6倍の問題を3分の2のトークンで解いたといいます。

外部の専門家による評価では、1問あたり人間の専門家20〜40時間を要すると見積もられました。時給200ドル換算で1問の人件費は数千ドルに達する一方、AIの推論コストは1問あたり数ドルにとどまります。現状のエージェント専門家を置き換えるほど信頼できないものの、部分的な自動化でも経済的・科学的価値が生まれる可能性があります。

OpenAIは代表的な10問をHugging Faceで公開し、近く第三者評価向けに50問の部分セットも提供する予定です。シーケンスコストの低下で生物学の制約はデータ生成から解析へ移りつつあり、この種の解析を自動化できれば創薬の標的選定や仮説の絞り込みを加速し、科学的発見を後押しすると同社は見ています。