Hugging Face、全サイズで最高精度のリランカー6モデルを公開

Ettinリランカーの性能

17Mから1Bまで6サイズ展開
全サイズで既存モデル超えの精度
1Bモデルは教師モデルと同等精度
150Mが600M未満で最強性能

蒸留による学習手法

MSE蒸留教師モデルを圧縮
約1.4億トリプルの学習データ公開
学習スクリプト約150行で再現可能

推論速度の優位性

17Mモデルが最速の毎秒7517ペア
1Bモデルは教師2.4倍高速
詳細を読む

Hugging Face開発者Tom Aarsen氏は2026年5月19日、Sentence Transformers向けのクロスエンコーダー型リランカー「Ettin Reranker」ファミリーとして、17Mから1Bパラメータまで6つのモデルを公開しました。いずれもジョンズ・ホプキンス大学が開発したModernBERTベースのEttinエンコーダーを基盤としており、学習データと学習スクリプトもあわせてオープンソースで提供されています。

学習手法には、既存の高性能リランカーmxbai-rerank-large-v2(15.4億パラメータ)を教師モデルとしたポイントワイズMSE蒸留が採用されています。約1億4300万件のクエリ・文書・スコアのトリプルで学習し、学習率とバッチサイズ以外のハイパーパラメータは全サイズ共通です。学習スクリプトはわずか約150行で、誰でも同じレシピを再現できます。

ベンチマーク結果では、すべてのモデルが同サイズ帯で最高精度を達成しました。17Mモデルは従来広く使われていたms-marco-MiniLM-L12-v2(33Mパラメータ)をNDCG@10で+0.051上回り、32Mモデルは17倍のパラメータを持つBAAI/bge-reranker-v2-m3(568M)を+0.025超えています。最大の1Bモデルは教師モデルとのMTEBスコア差がわずか0.0001に収まりました。

推論速度でも大きな優位性があります。17MモデルはH100 GPU上で毎秒7517ペアを処理し、MiniLM-L6-v2の約2倍の速度を実現しました。1Bモデルは教師モデルの2.4倍の速度で、精度をほぼ維持しながら大幅な高速化を達成しています。この速度差は、モジュラーTransformerアーキテクチャによるアンパディング処理とFlash Attention 2の組み合わせによるものです。

検索システムの実務では、高速な埋め込みモデルで候補を絞り込み、リランカーで最終順位を決める「retrieve-then-rerank」パターンが標準的です。Ettinリランカーは全モデルが最大8192トークンのコンテキストに対応し、Apache 2.0ライセンスで公開されているため、既存のMiniLM系リランカーからの移行が容易です。