NVIDIA、韓国人口統計に基づく合成ペルソナ600万件を公開
出典:Hugging Face
詳細を読む
NVIDIAは2026年4月21日、韓国の人口統計データに基づく合成ペルソナデータセット「Nemotron-Personas-Korea」をHugging Faceで公開しました。韓国統計情報サービス(KOSIS)や大法院、国民健康保険公団などの公的統計をもとに、600万件の合成ペルソナを生成しています。NAVER Cloudがシードデータとドメイン知識で協力しました。
各ペルソナは26のフィールドを持ち、名前、地域、職業、スキルなどの属性が含まれます。韓国全17道府県・25地区をカバーし、2,000以上の職業カテゴリを網羅しています。韓国個人情報保護法(PIPA)を考慮した設計で、個人を特定できる情報は一切含まれていません。
このデータセットの主な用途は、AIエージェントに韓国の文化的コンテキストを付与することです。現在のAIエージェントの多くは英語ウェブデータで訓練されており、韓国語の敬語体系や地域ごとの職業分布、文化的文脈を反映できていません。ペルソナをシステムプロンプトに組み込むことで、韓国の専門家として適切に応答するエージェントを構築できます。
チュートリアルでは、公衆衛生相談エージェントの構築例が示されています。ペルソナから抽出した属性をシステムプロンプトに反映し、NVIDIA APIやNIM、NemoClawなど複数の推論基盤で展開できます。金融、教育、行政など他分野への応用も容易です。
Nemotron-Personasコレクションは韓国のほか、米国、日本、インド、シンガポール、ブラジル、フランスもカバーしています。NVIDIAは同日からソウルで「Nemotron Developer Days」を開催し、このデータセットを使ったハッカソンも実施しています。