回答受付終了まであと1日
最近、田中角栄の声にそっくりな声で、AIに台本を読ませているYouTube動画が多数あります。 https://www.youtube.com/watch?v=Wxxl_4rjBqM&t(偉人のコンパス) https://www.youtube.com/watch?v=nubHMbrcO-8&t(静寂と名言) https://www.youtube.com/watch?v=MdV_MupeC7U&t(先人の教え) 感心するのが、声だけでなく、文章の読ませ方が、まるで本人が読んでいるような自然な抑揚のついた読み方となっています。 著作権ギリギリだし、見かけがショボイので深く考えずにいたのですが、ふと技術的な興味がわいてきました。 以下の点について、教えてください。 1、text to speechは何を使っているのか 2、声の変換は何を使っているのか ちなみに、ElevenLabsやCoeFontなどAI系は試してみました。 text to speech、声の変換、共に全然ダメです。 text to speechはgoogole ai studio、かなという気もしますが、同じ文章を読ませても、再現は不可能でした。(プロンプトの問題か、ガチャの問題かもしれません) google cloudでSSMLをAIに書かせたくらいだと、google ai studioの方がマシです。 また、声の変換は3つとも同じような声なのですが、RVCで本人の声を学習させても、こんな声にはなりませんでした。 3つとも声がそっくりだということは、学習元のデータが同じで、やり方が単純だと思うのですが、ネットに転がってる音源では再現できませんでした。 結構本人の遺された音声だと思っている人が多いので、注意喚起のためにも、皆さんで解析して、情報共有したいです。
4人が共感しています