ChatGPT で有名なOpenAI は3月30日、自然な話し言葉を合成できる新技術「Voice Engine」を発表した。たった15秒のオーディオサンプルを学習させることで、元の話者に非常に近い音質と口調で任意の文章を自然な音声に合成可能だという。もちろん日本語発声にも対応している。
Navigating the Challenges and Opportunities of Synthetic Voices
Voice Engine は2022年末に開発が完了し、同社の ChatGPT Voice や Read Aloud 機能で一部利用されてきたが、悪用リスクを考慮し慎重な対応を取ってきた。教育、コンテンツ翻訳、遠隔サービスなど幅広い分野で活用が期待される一方、声の認証体験の確立と類似声の排除が課題となる。
特に医療分野では、医師や薬剤師の声を学習させて合成音声を患者の母語で処方説明したり、視覚障がい者向けの説明資料を音声化したりと、バリアフリーなコミュニケーションの実現に貢献できそうだ。遠隔診療でも、医師や薬剤師本人の音声に近い音声で患者に分かりやすく説明するのに役立つだろう。
一方で、悪用による被害も懸念される。特に米国では大統領選挙を控えているだけに、選挙活動での悪用を懸念しOpenAI は、オーディオの起源追跡(ウォーターマーキング)、銀行口座への音声認証の段階的廃止、個人の声の使用保護に関する方針の確立などを提案。新技術の恩恵を最大化しつつ、社会に対してもリスクを最小化する取り組みを進める方針だ。
音声合成AIの進化は、生活のさまざまな場面で役立つ可能性を秘めている。しかし、倫理的課題にも目を向ける必要があり、新技術の健全な発展に向けて国や社会も協力していくことが重要になるだろう。