詳細を見る
ハーバード大学医学部とベス・イスラエル・ディーコネス医療センターの研究チームが、OpenAIの大規模言語モデルが救急外来のトリアージで医師と同等以上の診断精度を示したとする研究をScience誌に発表しました。76名の救急患者を対象に、AIモデル(o1・4o)と内科医2名の診断を盲検で比較した結果、特に初回トリアージの段階でAIが優位だったとしています。
具体的には、o1モデルが初回トリアージで正確またはそれに近い診断を示した割合は67%でした。一方、2名の内科医はそれぞれ55%と50%にとどまりました。評価は別の指導医2名が、どの診断がAIによるものか知らされない盲検方式で行っています。AIには電子カルテの情報がそのまま提供され、データの前処理は一切行われていません。
ただし研究チームは、AIが実際の救急現場で生死に関わる判断を下す準備ができているとは主張していません。むしろ、この結果は前向き臨床試験の緊急性を示すものだと位置づけています。共著者のRodman医師は、AI診断に対する説明責任の枠組みが現時点で存在しないことを指摘し、患者は依然として重要な判断を人間の医師に委ねたいと考えていると述べています。
一方で専門家からは批判的な声も上がっています。救急医のPanthagani氏は、比較対象が救急専門医ではなく内科医であった点を問題視しました。救急医の主な役割は最終診断を当てることではなく、致命的な状態を見逃さないことだと指摘し、報道の見出しが研究結果を過大に伝えていると警告しています。AIの医療応用が進むなかで、適切な評価基準と責任体制の整備が急務と言えるでしょう。