Hugging Face、全サイズで最高精度のリランカー6モデルを公開

2026年05月19日検索エンジニア推論 GPU コンテキストベンチマーク

Ettinリランカーの性能

17Mから1Bまで6サイズ展開

全サイズで既存モデル超えの精度

1Bモデルは教師モデルと同等精度

150Mが600M未満で最強性能

蒸留による学習手法

MSE蒸留で教師モデルを圧縮

約1.4億トリプルの学習データ公開

学習スクリプト約150行で再現可能

推論速度の優位性

17Mモデルが最速の毎秒7517ペア

1Bモデルは教師比2.4倍高速

出典：Hugging Face

詳細を読む

Hugging Faceの開発者Tom Aarsen氏は2026年5月19日、Sentence Transformers向けのクロスエンコーダー型リランカー「Ettin Reranker」ファミリーとして、17Mから1Bパラメータまで6つのモデルを公開しました。いずれもジョンズ・ホプキンス大学が開発したModernBERTベースのEttinエンコーダーを基盤としており、学習データと学習スクリプトもあわせてオープンソースで提供されています。

学習手法には、既存の高性能リランカーmxbai-rerank-large-v2（15.4億パラメータ）を教師モデルとしたポイントワイズMSE蒸留が採用されています。約1億4300万件のクエリ・文書・スコアのトリプルで学習し、学習率とバッチサイズ以外のハイパーパラメータは全サイズ共通です。学習スクリプトはわずか約150行で、誰でも同じレシピを再現できます。

ベンチマーク結果では、すべてのモデルが同サイズ帯で最高精度を達成しました。17Mモデルは従来広く使われていたms-marco-MiniLM-L12-v2（33Mパラメータ）をNDCG@10で+0.051上回り、32Mモデルは17倍のパラメータを持つBAAI/bge-reranker-v2-m3（568M）を+0.025超えています。最大の1Bモデルは教師モデルとのMTEBスコア差がわずか0.0001に収まりました。

推論速度でも大きな優位性があります。17MモデルはH100 GPU上で毎秒7517ペアを処理し、MiniLM-L6-v2の約2倍の速度を実現しました。1Bモデルは教師モデルの2.4倍の速度で、精度をほぼ維持しながら大幅な高速化を達成しています。この速度差は、モジュラーTransformerアーキテクチャによるアンパディング処理とFlash Attention 2の組み合わせによるものです。

検索システムの実務では、高速な埋め込みモデルで候補を絞り込み、リランカーで最終順位を決める「retrieve-then-rerank」パターンが標準的です。Ettinリランカーは全モデルが最大8192トークンのコンテキストに対応し、Apache 2.0ライセンスで公開されているため、既存のMiniLM系リランカーからの移行が容易です。