Descript、OpenAI推論モデルで多言語吹替を大幅改善
出典:OpenAI公式
詳細を読む
Descriptは、OpenAIの推論モデルを活用して多言語動画吹替パイプラインを刷新しました。導入から30日間で吹替動画の書き出しが15%増加し、尺遵守率が言語により13〜43ポイント改善されています。
吹替における最大の課題は、言語ごとに同じ内容を表現する時間が異なる点でした。例えばドイツ語は英語より長くなる傾向があり、固定の映像区間に収めるため音声を不自然に加速・減速させる必要がありました。AI製品責任者のミストラトフ氏は「チップマンクか眠そうな巨人のような音声になっていた」と振り返ります。
従来のアプローチでは意味の忠実度を最優先し、タイミングは事後補正していました。しかし以前のモデルでは音節数の正確な計算ができず、尺制約を満たせないケースが頻発していました。GPT-5シリーズの推論一貫性の向上により、音節計算と制約追跡が信頼できる水準に達しました。
新パイプラインでは、トランスクリプトを文境界や自然な間でチャンク分割し、各チャンクの音節数から目標尺を算出します。モデルは尺遵守と意味保持の両方を同時に最適化し、前後のチャンクも文脈として参照します。その結果、許容範囲内の尺に収まるセグメントが従来の40〜60%から73〜83%に向上しました。
今後は音声・映像・テキストを統合したマルチモーダル処理により、声のトーンや強調といった非言語的特徴の保持を目指します。CEOのバークハウザー氏は、企業向けに動画ライブラリ全体を一括翻訳・リップシンクする機能を構築中であると述べています。