NVIDIA、韓国人口統計に基づく合成ペルソナ600万件を公開

データセットの特徴

韓国統計庁等の公的データに基づく生成
600万件の合成ペルソナ、個人情報なし
26フィールド、全17道府県をカバー
CC BY 4.0ライセンスで公開

AIエージェントへの応用

ペルソナでエージェント韓国文化を付与
敬語体系や地域職業分布を反映
医療や金融など多領域に適用可能
詳細を読む

NVIDIAは2026年4月21日、韓国の人口統計データに基づく合成ペルソナデータセット「Nemotron-Personas-Korea」をHugging Faceで公開しました韓国統計情報サービス(KOSIS)や大法院、国民健康保険公団などの公的統計をもとに、600万件の合成ペルソナを生成しています。NAVER Cloudがシードデータとドメイン知識で協力しました。

各ペルソナは26のフィールドを持ち、名前、地域、職業、スキルなどの属性が含まれます。韓国全17道府県・25地区をカバーし、2,000以上の職業カテゴリを網羅しています。韓国個人情報保護法(PIPA)を考慮した設計で、個人を特定できる情報は一切含まれていません

このデータセットの主な用途は、AIエージェント韓国の文化的コンテキストを付与することです。現在のAIエージェントの多くは英語ウェブデータで訓練されており、韓国語の敬語体系や地域ごとの職業分布、文化的文脈を反映できていません。ペルソナをシステムプロンプトに組み込むことで、韓国専門家として適切に応答するエージェントを構築できます。

チュートリアルでは、公衆衛生相談エージェントの構築例が示されています。ペルソナから抽出した属性をシステムプロンプトに反映し、NVIDIA APIやNIM、NemoClawなど複数の推論基盤で展開できます。金融、教育、行政など他分野への応用も容易です。

Nemotron-Personasコレクションは韓国のほか、米国日本インド、シンガポール、ブラジル、フランスもカバーしています。NVIDIAは同日からソウルで「Nemotron Developer Days」を開催し、このデータセットを使ったハッカソンも実施しています。