MIT、AIビジョンモデルのバイアス除去で新手法を開発

2026年04月29日 Google ChatGPT リスク画像医療 MIT

従来手法の課題

投影法はバイアス除去時に別のバイアスを増幅

モグラ叩きジレンマの発生

人種バイアス除去で性別バイアス悪化

WRING手法の特長

高次元空間の座標を回転させてバイアス無効化

学習済みモデルに後処理で適用可能

他の関係性を維持したまま対象バイアスを低減

今後の展望

現在はCLIPモデルに限定

生成型言語モデルへの拡張を計画

出典：MIT News

詳細を読む

MITやウースター工科大学、Googleの研究チームが、AIビジョン言語モデル（VLM）のバイアスを効果的に除去する新手法「WRING（Weighted Rotational DebiasING）」を発表しました。この研究は2026年のICLR（国際学習表現会議）に採択されています。医療現場では皮膚病変の分類にAIが使われていますが、特定の肌色に偏ったモデルは高リスク患者を見落とす可能性があり、バイアスは安全上の重大な課題となっています。

従来広く使われてきた「投影デバイアス」手法は、モデルの埋め込み空間からバイアスに関連する部分空間を取り除くものです。しかしこの方法には「モグラ叩きジレンマ」と呼ばれる問題がありました。ある種のバイアスを除去すると、周囲の関係性が歪み、別のバイアスが増幅・生成されてしまうのです。たとえば人種バイアスを除去すると、性別バイアスが悪化するといった事態が起こります。

WRINGは、モデルの高次元空間においてバイアスの原因となる座標を異なる角度に回転させることで、特定の概念におけるグループ間の区別をモデルができなくする仕組みです。投影デバイアスのように部分空間を削除するのではなく、回転操作を行うため、他の学習済み関係性を損なわずに対象のバイアスだけを低減できます。しかも後処理として適用できるため、大規模モデルの再学習は不要です。

研究チームの実験では、WRINGはターゲットとなるバイアスを大幅に低減しつつ、他の領域でバイアスを増加させないことが確認されました。ただし現時点では、画像と言語を結びつけるCLIPモデルへの適用に限定されています。筆頭著者のWalter Gerych氏は、ChatGPTのような生成型言語モデルへの拡張が次のステップだと述べています。