アラビア語LLM評価基盤QIMMAが公開
詳細を読む
UAE Technology Innovation Institute(TII)の研究チームは2026年4月21日、アラビア語LLMの評価基盤「QIMMA」をHugging Face上で公開しました。QIMMAはアラビア語で「頂上」を意味し、既存ベンチマークの品質を検証してからモデル評価を行う「品質第一」のアプローチを採用しています。14のソースベンチマークから109サブセット、5万2000以上のサンプルを統合した包括的な評価スイートです。
従来のアラビア語ベンチマークには、英語からの翻訳による文化的不整合、アノテーションの不一致、誤った正解ラベルなどの体系的な品質問題が存在していました。QIMMAでは評価の前段階として、Qwen3-235BとDeepSeek-V3の2つの大規模モデルによる自動審査と、ネイティブ話者による人間レビューを組み合わせた多段階検証パイプラインを構築しています。
検証の結果、ArabicMMLUでは3.1%、MizanQAでは2.3%のサンプルが品質基準を満たさず除外されました。コードベンチマークでは、HumanEval+の88%、MBPP+の81%のアラビア語問題文に修正が必要と判明し、既存評価の信頼性に疑問を投げかけています。
リーダーボードの初期結果では、Qwen3.5-397Bが平均68.06点で首位、アラビア語特化のKarnakが66.20点で2位、Jais-2-70Bが65.81点で3位となりました。注目すべきは、モデルサイズと性能が必ずしも比例しない点で、32Bパラメータのモデルが70B以上のモデルを特定ドメインで上回るケースが確認されています。
QIMMAはオープンソース、ネイティブアラビア語コンテンツ、品質検証、コード評価、推論出力公開の5要素を兼ね備えた唯一のプラットフォームです。アラビア語は4億人以上の話者を持ちながらNLP評価の整備が遅れており、信頼性の高い評価基盤の登場は、同言語圏でのLLM開発・選定に大きな影響を与えると見られます。