OpenAI、Codexで自己改善する税務AI構築

2026年05月27日 OpenAI Codex スケジュール調整エンジニアエージェント

実証された成果

税務申告7,000件を処理

準備時間を約3分の1削減

下書き精度最大97%達成

処理スループット約50%向上

自己改善の仕組み

現場補正を構造化シグナル化

Codexが評価セットで原因調査

他税務スケジュールへ横展開

出典：OpenAI公式

詳細を読む

OpenAIとThrive Holdingsは2026年5月27日、会計事務所Creteの実務家と共同開発した税務AIエージェント「Tax AI」の運用成果を公開しました。過去6カ月で7,000件の申告を処理し、準備時間を約3分の1削減、下書き精度は最大97%、処理量は約50%増えたと報告しています。鍵となるのは、Codexを核に据えた自己改善ループです。

従来、運用開始後に発覚する不具合は、エンジニアが個別に原因を探って修正する手作業でした。Tax AIはこの工程を変え、実務家による修正をフィールド単位の構造化データとして蓄積します。導入直後は4分の1の申告しか「75%正答」に届きませんでしたが、6週間後には86%が同水準に到達したと示しています。

改善の中核はCodexによる自動調査です。たとえば賃貸物件の「公正賃貸日数」欄を継続的に取りこぼすパターンが評価指標で浮かぶと、Codexが抽出スキーマ・マッパー・採点器を横断的に点検し、修正案とプルリクエストを提示します。広範な回帰評価を通った上で人間のレビューに回り、曖昧な事例は製品チームへ差し戻します。

OpenAIとThriveは三つの柱を掲げます。第一に実務家との密接な連携、第二に入力から最終提出までの完全なプロダクション・トレース保全、第三にCodexによる評価駆動の改善ループです。賃貸物件で90%の精度・再現率に達するまで6週間を要しましたが、得た抽象化はSchedule CやAなどへ流用できると説明します。

Thriveは持株会社として現場企業を直接運営しているため、ベンダーではなくパートナーとして製品開発を進められる点を強みに挙げます。同じ設計図を簿記、監査、IT支援などへ展開する計画です。実務家の判断が学習を導き、製品が証拠を残し、エージェントが改善を回す。この三位一体が、これからの業務特化型AIの基本構造になりそうです。