PaddleOCRが50言語対応の軽量OCR新版を公開

3階層のモデル

パラメータ1.5M〜34.5M
tiny/small/mediumの3層
用途別に最適サイズ選択
共通バックボーン採用

性能と展開

medium認識精度83.2%
v5比で検出・認識向上
50言語を1モデルで対応
Hugging Faceで提供
詳細を読む

中国の百度系PaddleOCRは6月22日、汎用OCRモデルの最新世代「PP-OCRv6」をHugging Faceで公開しました。文書やスクリーンショット、多言語画像、産業ラベルなど実環境のテキスト検出・認識を狙い、1.5M〜34.5Mパラメータの3階層で軽量さと精度を両立します。VLM全盛の時代に専用OCRの実用価値を示す動きです。

モデルはtiny、small、mediumの3層で構成されます。最小のtinyはエッジ端末向け、mediumはサーバー側の高精度処理向けと、用途に応じてサイズと精度を選べる設計です。small以上の2層は簡体字・繁体字・英語・日本語を含む50言語に対応します。

精度面では、PaddleOCR独自の複数シナリオ評価でmediumが検出Hmean86.2%、認識精度83.2%を記録しました。前世代のPP-OCRv5_serverと比べ、検出で4.6ポイント、認識で5.1ポイント向上しています。

技術面では、検出に大カーネルの軽量特徴ピラミッド「RepLKFPN」、認識に局所文脈と全体注意を組み合わせた「EncoderWithLightSVTR」を採用しました。小さく回転した文字や低解像度、複雑な背景といった難しい入力への対応力を高めています。

展開の柔軟性も特徴です。Transformers、ONNX Runtime、Paddle Inferenceの3つの推論基盤に対応し、`pip install paddleocr`で導入できます。出力は可視化画像と構造化JSONで保存でき、文書解析や検索RAGエージェントの処理に組み込めます。