アラビア語LLM評価基盤QIMMAが公開

2026年04月21日 DeepSeek Qwen 推論コンテンツ品質保証ベンチマーク

品質検証を先行する新手法

評価前にベンチマーク品質を検証

2つのLLMと人間レビューの多段階審査

109サブセット・5.2万サンプル統合

既存ベンチマークの体系的欠陥を発見

初のコード評価と透明性

アラビア語初のコード生成評価を搭載

全サンプルの推論出力を公開

99%がネイティブアラビア語コンテンツ

7ドメイン・46モデルを網羅的に評価

出典：Hugging Face

詳細を読む

UAE Technology Innovation Institute(TII)の研究チームは2026年4月21日、アラビア語LLMの評価基盤「QIMMA」をHugging Face上で公開しました。QIMMAはアラビア語で「頂上」を意味し、既存ベンチマークの品質を検証してからモデル評価を行う「品質第一」のアプローチを採用しています。14のソースベンチマークから109サブセット、5万2000以上のサンプルを統合した包括的な評価スイートです。

従来のアラビア語ベンチマークには、英語からの翻訳による文化的不整合、アノテーションの不一致、誤った正解ラベルなどの体系的な品質問題が存在していました。QIMMAでは評価の前段階として、Qwen3-235BとDeepSeek-V3の2つの大規模モデルによる自動審査と、ネイティブ話者による人間レビューを組み合わせた多段階検証パイプラインを構築しています。

検証の結果、ArabicMMLUでは3.1%、MizanQAでは2.3%のサンプルが品質基準を満たさず除外されました。コードベンチマークでは、HumanEval+の88%、MBPP+の81%のアラビア語問題文に修正が必要と判明し、既存評価の信頼性に疑問を投げかけています。

リーダーボードの初期結果では、Qwen3.5-397Bが平均68.06点で首位、アラビア語特化のKarnakが66.20点で2位、Jais-2-70Bが65.81点で3位となりました。注目すべきは、モデルサイズと性能が必ずしも比例しない点で、32Bパラメータのモデルが70B以上のモデルを特定ドメインで上回るケースが確認されています。

QIMMAはオープンソース、ネイティブアラビア語コンテンツ、品質検証、コード評価、推論出力公開の5要素を兼ね備えた唯一のプラットフォームです。アラビア語は4億人以上の話者を持ちながらNLP評価の整備が遅れており、信頼性の高い評価基盤の登場は、同言語圏でのLLM開発・選定に大きな影響を与えると見られます。