見出し画像

【神AIボイチェン|RVCとは】RVCを使ったリアルタイムボイスチェンジャー|導入~使い方

今回は、RVC学習済データとVC Clientを使って、リアルタイムで自分の声を別の声に変える方法について解説します。

RVC(Retrieval-based-Voice-Conversionの略)は中国初のAIボイスチェンジャーで、精度と学習・変換速度がやばいです。
従来からあるMMVCと違いボイチェン感がなく、本当に違和感がなくなめらか
まさにコナン君の蝶ネクタイのようにリアルタイムで声を変えてくれます

大まかな流れは「RVC学習済データを用意する」ー「VC ClientでRVC音声データを読み込み」ー「リアルタイムでボイチェンして録音する」

すでに学習させているRVCデータを使うのでハイスペックなパソコンは必要ありませんし、お金もかかりません。
私の環境はWindowsですが、MACでも動くはずです。

今回は録音する方法になりますが、リアルタイムでボイチェンできるのでDiscode,LINE,Youtube Live などでも使うことができますよ。


RVCとは

RVC(Retrieval-based-Voice-Conversionの略)は中国初のAIボイスチェンジャーで、精度と学習・変換速度がやばいです。

Retrieval-based-Voice-Conversionの略であるRVCは、開発元が中国であるため、説明が中国語で書かれており難易度がすこし高めです。

RVCを使用するには学習済みの音声データを使う方法と、自ら学習させてRVCの音声データを作る方法の2種類があります。

学習させるにはそれなりのはいパソコンスペックが必要になるので、
今回はとりあえず誰でもRVCを体験できる方法として、VC ClientとRVC学習済みのデータを使う方法を解説していきます

RVCを使って音声データを学習する場合は以下、RVC WebUIをつかいますが、今回は使用しません。

RVCとMMVCの違い

MMVC(Real Time Many to Many Voice Conversionの略)

天王洲アイル氏が開発・公開するボイスチェンジャーソフトである。機械学習(ディープラーニング)により**『誰でも』『好きな声に※』『リアルタイムで』『無料に』声変換できる

https://dic.nicovideo.jp/a/mmvc

開発元

RVCの開発元が中国なのに対し、MMVCの開発元が日本です。
RVCのWebUIは中国語のため、少し使いづらいです。
MMVCは日本語対応なので操作が分かりやすいです。

学習方法と学習に必要なデータ

RVCはAI学習で変換先の音声データのみで動くのに対し、MMVCはディープラーニングであるため、変換先の音声データと自分の声を録音したデータが必要である。

学習にかかる時間

RVCとMMVCで学習にかかる時間が違います。
RVCは早いと数時間で終わりますが、MMVCは早くても1日はかかります。
そして自分の音声データもいるので、文字を読み上げる労力も必要です。

このことから、RVCのほうが圧倒的に学習コストが低くなります
RVCは学習させる時間によっても品質が変わります。
何回も学習させるほど品質が高くなります。

音声品質

RVCの学習回数や時間などによっても変わってきますが、RVCのほうが音声の品質が高いです。
MMVCはボイチェンっぽさがありますが、RVCはほとんど違和感のない音声変換を実現できています

まとめると、RVCのほうが学習コストも低く、クオリティも高い、最新のAIボイチェンだということです

準備・用意するもの

今回はRVCは使わず、VC ClientとRVC学習済モデルを使ってリアルタイムにボイスチェンジする方法を解説します。

  • VC Client(リアルタイムボイスチェンジャー)

  • RVC学習済モデル(音声データ)

  • VB-Audio Virtual Cable(Discodeや録音で必要。聞くだけなら必要なし)

①RVC学習済モデルの準備

RVC学習済モデルの多くはBOOTHで購入するか、無償配布してくれているやつを使わせていただきます。

無償で配布してくれているRVC学習済モデルがいくつかありますが、そのなかでもクオリティの高いモデルをご紹介します。
データを利用する際は、必ず利用規約を確認してください。

あまあま妹系ボイス

クール系女子

かわいい系女子

さわやかな青年

やさしいお姉さん

やさしいおじさん

愛想のいい女の子
このモデルは商用利用も可能なので、今回はこちらのデータを使って解説します。

BOOTHのページが開いたら「無料ダウンロード」ボタンをクリックしダウンロードしてください。

ダウンロードしたZIPファイルを右クリックし「すべて展開」で解凍します。

解凍したファイルは後ほど使うのでそのままにしておいてください。

②VB-Audio Virtual Cableの導入

VB-Audio Virtual Cableは仮想の音声ケーブルです。
以下リンクからサイトを開き、ご自身のOSにあったファイルをダウンロードしてください。

https://vb-audio.com/Cable/

ダウンロード出来たら、ZIPファイルを解凍してください。

解凍したフォルダの中にある「VBCABLE_Setuup_x64.exe」を右クリックし、管理者として実行してください。
※管理者でインストールしないと警告が出てくると思います。

インストールしますか?と出てきたら信頼するにチェックが入っち得る状態で「インストール」ボタンをクリックします。

「Install Driver」をクリックするとインストールが開始されます

以下画像が出てきたらインストール完了です。

③VC Client(リアルタイムボイスチェンジャー)の導入

VC Clientはリアルタイムに声を変えるツールです。
RVCのほかにもMMVCなどさまざまな種類のボイチェンAIモデルに対応しています。

まずは以下リンクからGitHubページを開き、VC Clientをダウンロードします。

https://github.com/w-okada/voice-changer

GitHubページが開いたら、下にスクロールするとVC Clientのダウンロードページがあります。
一番上の最新バージョンでいいので、その中のhugging faceボタンをクリックします。

いくつか種類が出てくるので、最新バージョンをダウンロードしましょう。
ファイル名で判断するか、Uploadの日付が右に出ているので、新しいやつを選べばOKです。

ダウンロードしたZIPファイルを右クリックし、すべて展開で解凍します。

VC ClientでRVCに対応させるために追加ファイルが必要になりますので、ダウンロードしていきます。

開いたHaggingfaceのページ内に「hubert_base.pt」というファイルを見つけ、下矢印ボタンを押してダウンロードしてください。

ダウンロードした「hubert_base.pt」ファイルを先ほど解凍した「MMVCServerSIO」フォルダの直下に放り込んでください。

MMVCServerSIOフォルダ内に「start_http.bat」ファイルがあるので実行してください。実行するとVC Clientが起動します。

これがVC Clientの画面になります。

先ほどダウンロードしたモデルを追加してみましょう。
モデル選択画面の右にある「編集」ボタンをクリック。

次に、blankになっている行にある「アップロード」ボタンをクリックします

ModelとIndexそれぞれの「ファイル選択」ボタンをクリックします。

さきほどダウンロードした音声モデルフォルダ内にあるModelとIndexのファイルを選択してください。
・Modelは「.pth」ファイル
・Indexは「.index」ファイル
※Indexファイルがない場合は入れなくて大丈夫です。

とりあえず、ボイスチェンジャーが正常に動作するか確認してみましょう。
新たに追加したモデルを選択し、入力出力のデバイスを選択します。
inputにマイク、outputにヘッドフォンかスピーカーを選んでください。

設定ができたら「start」で開始してみてください。
どうですか?音声は変換されていますか?

では、次にDiscodeでリアルタイムに音声を変換してみましょう。

DiscodeやLive配信、動画編集ソフトで録音して使う場合は、outputを「VB-Audio Virtual Cable」を選んでください

次にDiscode側も設定していきます。
Discodeにある歯車マークをクリックし、設定画面を開きます。

設定画面左メニューにある「音声・ビデオ」を選択し、入力デバイスを「VB-Audio Virtual Cable」にしてください。

あとは誰かと通話すれば変換された音声が相手に聞こえるはずです。
LINEやVRChatでも同様で、入力デバイス(マイク)を「VB-Audio Virtual Cable」にすれば相手には変換された音声が聞こえます。

まとめ

今回は、VC ClientとRVC学習済データを使ってリアルタイムにボイスチェンジする方法について解説しました。

次はRVCデータを作る方法についても解説したいと思います。

それではまたお会いしましょう。

いいなと思ったら応援しよう!