DPOがOCRモデルのテキスト退化を平均59%削減
SFTの限界とDPOの効果
失敗出力を学習信号に転用
詳細を読む
Dharma AIは2026年6月3日、Direct Preference Optimization(DPO)をOCRタスクに適用し、ビジョン言語モデルに頻発するテキスト退化(繰り返しループ)を大幅に削減できることを示しました。ブラジルポルトガル語の構造化文書抽出タスクで5つのモデルファミリーを検証し、DPOステージ追加後の退化率は平均59.4%減少、最良ケースでは87.6%の削減を達成しています。
テキスト退化とは、自己回帰モデルが推論時に同じトークンを繰り返し生成し、無限ループに陥る現象です。教師あり微調整(SFT)はタスク能力を高める一方、トークン単位の損失関数では繰り返しループを「出力全体の失敗」として罰することができません。実際、あるモデルではSFT後に退化率が0.60%から3.23%へ悪化しました。タスク能力の向上が、退化の発生しやすい分布領域へモデルを近づけた結果です。
DPOはこの構造的限界を補います。出力全体を「選択」か「棄却」かで評価するため、退化ループを明示的に不正解として学習できます。Dharma AIのパイプラインでは、SFTモデル自身が生成した退化出力をそのまま棄却例として活用しました。通常は低品質データとして除外される失敗出力を、最も情報量の多い負の学習信号として再利用するという逆転の発想です。
23,726件の学習文書に対し複数の候補出力を生成し、自動LLM判定で選好ペアを構築しました。人手アノテーションは不要で、失敗モードが「識別可能」「スコアリング可能」「十分な量がある」という3条件を満たせば他のドメインにも応用できると論文は指摘しています。OCR抽出の品質を損なわずに退化を抑制できた点も実用上の大きな意義です。構造化生成パイプラインを運用するMLエンジニアにとって、SFT後のDPOは一度きりの追加投資で信頼性を大幅に改善できる手段といえます。