ChatGPTの論文要約は不正確、AAASが調査結果を発表
出典:Ars Technica
詳細を読む
米国科学振興協会(AAAS)は、ChatGPTが科学論文の要約において、実用レベルには達していないとの見解を示しました。同協会のライターは「これらの技術は補助ツールとして潜在能力を持つが、現時点では本格的な実用段階にはない」と述べ、AIによる要約の限界を指摘しています。
専門家でない読者向けに複雑な科学的知見を要約することは、AIの有望な活用事例の一つと見なされてきました。しかし今回の調査は、特に専門性が高く正確性が求められる分野において、AIの能力に疑問を投げかける結果となりました。サイエンスジャーナリズムの核心業務をAIが代替するのはまだ難しいようです。
調査は2023年12月から1年間実施されました。研究チームは、専門用語が多い論文や画期的な発見を扱った論文など、意図的に難易度の高い64本の論文を選定。GPT-4やGPT-4oといった最新モデルを使用し、生成された要約を専門ライターが定性的・定量的に評価しました。
評価の結果、ChatGPTが生成した要約は、記事の構成こそ模倣できるものの、「正確性を犠牲にして単純化する」傾向が顕著でした。そのため、AAASのライターが利用するには、厳密なファクトチェックが必須となり、かえって手間が増える可能性も示唆されました。
この調査は、評価者が人間のジャーナリストであるため、AIに仕事を奪われる可能性に対するバイアスを排除しきれないという限界も指摘されています。しかし、AIを業務に活用する際は、その性能を過信せず、あくまで人間の専門家による監督と修正が不可欠であることを示唆する重要な知見と言えるでしょう。