OpenAI、社内データエージェントを2名で構築し全社展開

エージェントの全容

GPT-5.2基盤で自然言語対応
70%のコードをAIが生成
600PB超・7万データセットに対応
問合せ1件あたり2〜4時間短縮

技術的工夫と課題

Codexがテーブル探索を自動化
6層のコンテキスト階層で精度向上
過信防止の発見フェーズ強制
少量精選データが大量投入に勝る結果

企業への示唆

製品化せず構築用APIを外部提供
データガバナンスが成否を左右
詳細を読む

OpenAIは、社内のデータ分析エージェントをわずか2名のエンジニアが3カ月で構築したことを明らかにしました。このツールはSlackやWebインターフェースから自然言語で問い合わせると、チャートやダッシュボードを数分で返す仕組みです。

同社のデータ基盤責任者であるEmma Tang氏によると、600ペタバイト超のデータと7万のデータセットを扱う環境で、5000人の社員のうち4000人以上がこのエージェントを日常的に利用しています。財務チームの地域別売上比較からエンジニアのレイテンシ調査まで、部門横断で活用されています。

技術的な最大の課題は、7万のデータセットから正しいテーブルを見つけることでした。Codexを活用した「Codex Enrichment」プロセスが日次でテーブルの依存関係や結合キーを自動解析し、ベクターデータベースに格納することでこの問題を解決しています。

モデルの過信という行動上の課題に対しては、プロンプトエンジニアリングで発見フェーズに時間をかけるよう強制する手法を導入しました。また評価の結果、コンテキストは量より質が重要であり、厳選された少量の情報のほうが高精度な結果を生むことが判明しています。

OpenAIはこのツールの製品化は予定しておらず、Responses APIやEvals APIなど外部利用可能なAPIのみで構築したと強調しています。Tang氏は「データガバナンスこそがAIエージェント成功の前提条件」と述べ、データの整備と注釈付けの重要性を企業に訴えました。