NVIDIA、韓国人口統計に基づく合成ペルソナ600万件を公開

2026年04月21日 NVIDIA 専門家推論米国日本インド

データセットの特徴

韓国統計庁等の公的データに基づく生成

600万件の合成ペルソナ、個人情報なし

26フィールド、全17道府県をカバー

CC BY 4.0ライセンスで公開

AIエージェントへの応用

ペルソナでエージェントに韓国文化を付与

敬語体系や地域職業分布を反映

医療や金融など多領域に適用可能

出典：Hugging Face

詳細を読む

NVIDIAは2026年4月21日、韓国の人口統計データに基づく合成ペルソナデータセット「Nemotron-Personas-Korea」をHugging Faceで公開しました。韓国統計情報サービス(KOSIS)や大法院、国民健康保険公団などの公的統計をもとに、600万件の合成ペルソナを生成しています。NAVER Cloudがシードデータとドメイン知識で協力しました。

各ペルソナは26のフィールドを持ち、名前、地域、職業、スキルなどの属性が含まれます。韓国全17道府県・25地区をカバーし、2,000以上の職業カテゴリを網羅しています。韓国個人情報保護法(PIPA)を考慮した設計で、個人を特定できる情報は一切含まれていません。

このデータセットの主な用途は、AIエージェントに韓国の文化的コンテキストを付与することです。現在のAIエージェントの多くは英語ウェブデータで訓練されており、韓国語の敬語体系や地域ごとの職業分布、文化的文脈を反映できていません。ペルソナをシステムプロンプトに組み込むことで、韓国の専門家として適切に応答するエージェントを構築できます。

チュートリアルでは、公衆衛生相談エージェントの構築例が示されています。ペルソナから抽出した属性をシステムプロンプトに反映し、NVIDIA APIやNIM、NemoClawなど複数の推論基盤で展開できます。金融、教育、行政など他分野への応用も容易です。

Nemotron-Personasコレクションは韓国のほか、米国、日本、インド、シンガポール、ブラジル、フランスもカバーしています。NVIDIAは同日からソウルで「Nemotron Developer Days」を開催し、このデータセットを使ったハッカソンも実施しています。