MIT、AIビジョンモデルのバイアス除去で新手法を開発
従来手法の課題
WRING手法の特長
今後の展望
詳細を読む
MITやウースター工科大学、Googleの研究チームが、AIビジョン言語モデル(VLM)のバイアスを効果的に除去する新手法「WRING(Weighted Rotational DebiasING)」を発表しました。この研究は2026年のICLR(国際学習表現会議)に採択されています。医療現場では皮膚病変の分類にAIが使われていますが、特定の肌色に偏ったモデルは高リスク患者を見落とす可能性があり、バイアスは安全上の重大な課題となっています。
従来広く使われてきた「投影デバイアス」手法は、モデルの埋め込み空間からバイアスに関連する部分空間を取り除くものです。しかしこの方法には「モグラ叩きジレンマ」と呼ばれる問題がありました。ある種のバイアスを除去すると、周囲の関係性が歪み、別のバイアスが増幅・生成されてしまうのです。たとえば人種バイアスを除去すると、性別バイアスが悪化するといった事態が起こります。
WRINGは、モデルの高次元空間においてバイアスの原因となる座標を異なる角度に回転させることで、特定の概念におけるグループ間の区別をモデルができなくする仕組みです。投影デバイアスのように部分空間を削除するのではなく、回転操作を行うため、他の学習済み関係性を損なわずに対象のバイアスだけを低減できます。しかも後処理として適用できるため、大規模モデルの再学習は不要です。
研究チームの実験では、WRINGはターゲットとなるバイアスを大幅に低減しつつ、他の領域でバイアスを増加させないことが確認されました。ただし現時点では、画像と言語を結びつけるCLIPモデルへの適用に限定されています。筆頭著者のWalter Gerych氏は、ChatGPTのような生成型言語モデルへの拡張が次のステップだと述べています。