OpenAI、GPTの「ゴブリン癖」の原因と対策を公表

ゴブリン問題の発覚と原因

GPT-5.5のシステム指示にゴブリン禁止令が発覚
「Nerdy」人格のRLHF訓練で空想生物の比喩を過剰報酬
ゴブリン使用率がGPT-5.1以降175%増加
報酬された癖が全人格に転移・固定化

対策とAI訓練への教訓

Nerdy人格廃止後もGPT-5.5に癖が残存
Codex向けにシステムプロンプトで応急対処
GPT-6ではフィルタ済みデータで根本解決へ
強化学習行動監査の重要性が浮き彫りに
詳細を読む

OpenAIは2026年4月29日、同社のAIモデルがコード生成時に「ゴブリン」「グレムリン」などの空想上の生物を不自然に多用する問題について、原因と対策を説明する公式ブログ記事を公開しました。この問題は4月27日に開発者CodexGitHubリポジトリ内のシステム指示から「ゴブリンについて絶対に話すな」という記述を発見したことで広く知られるようになり、SNS上で大きな話題となりました。

問題の根本原因は、ChatGPT人格カスタマイズ機能の一つであった「Nerdy」モードの訓練にありました。RLHF(人間のフィードバックによる強化学習)の過程で、人間の評価者が空想生物を使った比喩表現に高い評価を与え続けた結果、モデルは「生物の比喩=高報酬」と学習しました。Nerdyモードは全トラフィックのわずか2.5%でしたが、ゴブリン関連の言及の66.7%を占めていたとOpenAIは報告しています。

さらに深刻だったのは、この癖がNerdyモード以外にも転移したことです。強化学習で報酬された行動は特定の条件に限定されず、ゴブリン比喩を含む出力が後続モデルのファインチューニングデータに再利用されたことで、GPT-5.4やGPT-5.5の重みに「焼き込まれ」ました。2026年3月にNerdyモードを廃止した後も、GPT-5.5ではこの癖が消えませんでした。

OpenAIは当面の対策としてCodexのシステムプロンプトにゴブリン禁止の指示を追加し、次世代モデルGPT-6ではフィルタ済みのデータセットで訓練することで根本解決を目指すとしています。一方で、ゴブリン表現を好むユーザー向けに禁止指示を解除するスクリプトも公開しました。この一件は、強化学習における意図しないバイアスの伝播リスクを示す事例として、AI業界で行動監査の重要性を改めて認識させるきっかけとなっています。