NVIDIA、概念駆動で1500万件のPython合成データセットを公開

Hugging Face

データセットの設計

91個のプログラミング概念を体系化
階層的タクソノミーで難易度を制御
1500万件のPython問題を自動生成
ast.parseで構文的正当性を検証

性能向上の実証

HumanEvalで6ポイント改善
73から79へ精度が向上
エッジケース処理能力も強化
CC-BY-4.0で公開済み
詳細を読む

NVIDIAは、プログラミング概念の体系的な分類に基づき、1500万件のPython問題からなる大規模合成データセット「Code Concepts」を公開しました。同データセットはNemotron-Pretraining-Specialized-v1.1の一部として、CC-BY-4.0ライセンスで提供されます。

このワークフローの核となるのは、Nemotron-Pretraining-Codeデータセットから構築されたプログラミング知識のタクソノミーです。文字列操作や再帰といった基本構文から、高度なアルゴリズムやデータ構造パターンまで、数千の概念が階層的に整理されています。

実証実験では、HumanEvalベンチマークに関連する91個のコア概念を特定し、これらの概念の組み合わせから約1500万件の合成問題を生成しました。各問題はPythonのast.parse関数で構文検証され、品質が担保されています。

生成された100億トークンをNemotron Nano-v3の事前学習の最終1000億トークンに組み込んだところ、HumanEval精度が73から79へと6ポイント向上しました。グラフアルゴリズムや集合演算など、多様な概念での性能改善が定性的にも確認されています。

NVIDIAはこのデータセットを単発の成果物ではなく、概念駆動型生成ワークフローの有効性を示す検証として位置づけています。タクソノミーとデータセットの両方をオープンライセンスで公開することで、他のドメインへの応用拡大をコミュニティに促しています。