OpenAI個人情報保護モデルで3つのアプリを構築

2026年04月27日 OpenAI OCR エンジニア推論 GPU プライバシー

モデルの特徴と性能

15億パラメータ、活性50Mの軽量設計

Apache 2.0の寛容ライセンス

128Kトークンの長文一括処理

PII検出ベンチマークで最高精度達成

3種のデモアプリ構成

PDF等の個人情報を自動強調表示

画像内の個人情報を黒塗り処理

貼り付けテキストの秘匿共有機能

gradio.Serverで統一的に構築

出典：Hugging Face

詳細を読む

OpenAIが公開した個人情報保護モデル「Privacy Filter」を活用し、Hugging Faceの開発者3名が実用的なWebアプリ3本を構築しました。Privacy Filterは15億パラメータのモデルで、活性パラメータは5000万、Apache 2.0ライセンスで提供されています。128Kトークンのコンテキストに対応し、PII検出ベンチマークで最高精度を達成しています。

1つ目の「Document Privacy Explorer」は、PDFやDOCXファイルをアップロードすると、個人名・メールアドレス・電話番号などの個人情報を自動検出してカテゴリ別にハイライト表示するアプリです。128Kコンテキストを活かし、文書全体を一括処理するためチャンク分割が不要です。

2つ目の「Image Anonymizer」は、スクリーンショットや画像内の個人情報を黒塗りで自動秘匿するツールです。Tesseract OCRで文字領域を抽出した後にPrivacy Filterで検出し、ピクセル座標の矩形として返します。ブラウザ上でバーの表示切替やドラッグ移動、手動追加も可能です。

3つ目の「SmartRedact Paste」は、テキストを貼り付けると秘匿済みの公開URLと、原文を確認できるトークン付き非公開URLの2つを生成するプライバシー対応ペーストビンです。多言語テキストにも対応しています。

3つのアプリはすべてgradio.Server上に構築されています。モデル推論は@server.apiデコレータでGradioのキューに載せ、ZeroGPU割り当てやプログレス通知を活用します。静的ページの配信にはFastAPIのルートを使い、モデル呼び出しとUI提供を明確に分離する設計パターンが共通しています。