TII、6億パラメータで画像認識の統合モデル「Falcon Perception」公開

2026年04月01日 Meta Apple DeepSeek OCR 推論パッチ

単一モデルで高精度認識

画像とテキストを1つのTransformerで統合処理

SAM 3を上回るMacro-F1 68.0達成

属性・OCR・空間理解で大幅な性能差

0.6Bパラメータの軽量設計

OCRモデルも同時発表

Falcon OCRは0.3Bパラメータ

olmOCRベンチで80.3点の高精度

オープンソースOCR中最高スループット

診断ベンチマークPBench

能力別にL0〜L4の5段階で評価

空間理解でSAM 3に+21.9点差

出典：Hugging Face

詳細を読む

UAE・技術革新研究所（TII）のFalconチームは2026年4月1日、画像認識・セグメンテーション・OCRを単一のTransformerで処理するオープンソースモデル「Falcon Perception」を公開しました。パラメータ数はわずか6億で、従来のパイプライン型システムに代わる統合的なアプローチを提案しています。

Falcon Perceptionの最大の特徴は、画像パッチとテキストトークンを最初の層から同一のパラメータ空間で処理する「早期融合」アーキテクチャです。画像トークンには双方向注意、テキストトークンには因果的注意を適用するハイブリッドマスクにより、1つのモデルで視覚エンコーダとテキストデコーダの両方の役割を果たします。

オープン語彙セグメンテーションベンチマークSA-Coでは、Macro-F1で68.0を達成し、Meta社のSAM 3の62.3を上回りました。特に属性認識で+8.2、食品・飲料カテゴリで+12.2と大きな差をつけています。一方、存在判定の精度（MCC 0.64対0.82）ではSAM 3に及ばず、今後の改善課題として示されています。

同時に発表されたFalcon OCRは0.3Bパラメータの文書認識モデルです。olmOCR ベンチマークで80.3点、OmniDocBenchで88.6点を記録し、DeepSeek OCR v2やGPT 5.2を上回る性能を示しました。オープンソースOCRモデルとして最高のスループットを実現し、vLLM統合によりA100上で毎秒2.9画像を処理できます。

チームは性能評価のため、能力別に分類した診断ベンチマーク「PBench」も公開しました。単純な物体認識（L0）から関係推論（L4）まで5段階に分かれ、Falcon Perceptionは空間理解でSAM 3に+21.9点、OCR識別で+13.4点と、プロンプトが複雑になるほど差が拡大する結果となっています。

学習には5400万枚の画像と1億9500万の正例表現、4億8800万のハードネガティブを使用しました。3段階の学習レシピにより、シーン理解からタスク特化、高密度シーン対応へと段階的に能力を獲得させています。モデルとコードはHugging Faceで公開されており、Apple Silicon向けのMLX統合やDockerサーバーも提供されています。