【RVC】初心者の方向けにRVCの導入からモデルが出来るまで全部解説してみたよ【AIボイチェン】
HTML-код
- Опубликовано: 5 окт 2024
- RVCの導入→素材の用意→学習までワンセットで解説しています
解らなければコメントへ(わかる範囲でお答えします…)
VC Clientで女の子になろう!(ローカル環境)
• 【AIボイチェン】VC Clientで女の子...
歌わせてみよう
• 【RVC】実際に歌わせてみたを作ってみよう!...
・python
www.python.org...
・7zip
7-zip.opensour...
・RVC Web UI
huggingface.co...
・RUclips→MP3
www.y2mate.com...
(広告注意)
→Any Video Converterが楽。ダウンロードからWAV変換がこのソフトでできる無料です。
www.any-video-...
Audacity
www.audacityte...
もものせTwitter
/ yumeno_momonose
イラストレータ
ねいろ様
モデリング
おかだ様 - Игры
00:00 開始
00:35 python 7zip 導入
03:38 RVC 導入
08:07 Audacity 導入
09:08 学習素材収集
12:56 学習素材編集
19:00 学習
もものせさんの最初の動画のおかげでRVCにはまり、気付いたら30人以上の学習データを作成していました。
クオリティに関しても文句のない出来で、本当に参考になりました。
音声データ探しがどうしてもネックですが、やっていて楽しいので本当に感謝してます。
コメントありがとうございます!
めっちゃ楽しまれてますね!解説動画出してみてよかったです
音声素材の入手が一番大変ですもんねー…
欲しい時に欲しい情報が上がってる。不思議なチャンネル。
BGMで解説が入ってこないけどこれがこのチャンネルの特徴
Pappa Parappa 無限耐久
動画のおかげでRVCモデル作成することができました…!感謝です…!
使用素材的に200や600回が良いかと試したところ、3時間や6時間かかって驚きましたね…。
どの学習回数が良いのか知るために試行錯誤するのが大変…!
ご視聴感謝☆完成おめでとうございます🎉
声質によっても違ったりすますが、何回もやってるとある程度感覚がわかってきますよ…!
ちょうど導入、確認している際に最新の動画が投稿されていた!解説ありがとうございます…!
タイミングばっちりでしたね!ぜひ頑張ってみてください☆
すばらしい! ずっとトレーニングがエラーばかりでうまくいかなかったのですが、
もものせさんの動画のおかげで学習成功しました! マジ感謝!
ファイル名ローマ字表記と5分単位切り分けとフォルダのpath指定、ここがポイントでした
毎回わかりやすい解説助かる
見てくれて助かるです(*'ω'*)
AI学習関連で一番わかりやすくてかなりお世話になってます🙇♀️
人力ボカロ作る時にアニメから50音抽出するんじゃなくてAIに学習させて50音採取するっていうズルしてます…
ありがとうございます(*'ω'*)
AIはうまく使えばとっても便利なものなのでとってもいい使い方だとおもいますよ☆
めっちゃ詳しい解説お疲れさまでした!
凄い!今までのアップデート集大成、「これさえ見ればRVCはOK!」の決定版みたいな感じですね(^^)
何度も見返して勉強させていただきますね!
ありがとうございます☆
凄いわかりやすかったので、可能であれば過去の学習モデルで推論する方法も動画にぜひまとめてほしいです!
ありがとうございます!
近く動画をつくりますね!
質問なんですけど、RVCを導入する時に、下のスペックのPCだといくつか種類があるうち(4:18のところ)でどれをダウンロードすればいいですか?
みないうちに超自然だこれもうわかんないな
コメント失礼します。
もものせさんは4070を推奨しておりますが、3060 12GB や4060ti 16GB等でも大丈夫でしょうか?学習に時間がかかるのみでAIカバーなどを作る際に歌わせた際にラグが発生したり、AI感が強かったり等の品質には異常はないのでしょうか?
学習は強いグラボほど時間が短縮できるため4070以上を推奨していますがカバーやリアルタイム変換では下位のグラボでも大丈夫ですよ!品質も変わりません
amd版をダウンロードしたのですが、解凍したファイルの中にgo-webがありません😢
すみません当方の検証環境にAMDの機材がないため確認に少しお時間をいただいてもよろしいでしょうか?
また使用しているグラボをお教えいただけると助かります…!
@@yumeno_momonose
使っているのはrx6600xtです。
よろしくお願いします。
同じく!!!!!
@@yumeno_momonose こんにちは。自分もAMD構成ですがgo-webがありませんでした。個人で調べたところAMD製のグラボではできないとの情報がありました。
AMD製グラボでRVCを使用するならばコードを書き直しするとか書かれていました。
自分の構成は以下の通りです。
GPU→Radeon RX6700XT
CPU→AMD Ryzen5 5600X
になります。最初のコメ主様がもものせ様に返信されていなかったので変わりに送らせて頂きます。
@@yumeno_momonose
返信遅くなりました。
私のグラボはrx6600xtです!
喋ってる途中で切れるかもしれないですが、Audacityのツールから等間隔ラベルで秒数を設定して、エクスポート時にラベルを選択すれば一気に分割保存できますよ!
その方法のほうが本当は楽なんですよね!なんとなく途中で声がぶつ切りになるのが気になってしまって💦
もものせさんの動画を見て最後まで作ることが出来ました!無知な私で申し訳ないのですがこの後は何をすればボイスチェンジ出来ますか?動画などがあれば教えて欲しいです!
VC Clientで女の子になろう!2023.8月版というのが参考になると思います…!
@@yumeno_momonose ありがとうございます!
スムーズに動くスペックってどのくらいでしょうか?
使ってる環境お聴きしたいです!
学習させるならVRAM12GBくらいあるグラボだといい感じです!
今はメインパソコンが壊れてしまっているのでサブPCですが
ryzen7 1700
RAM16GB
RTX4090
といった構成です!
ありがとうございます!
調べてみます!
大変わかりやすい解説助かります。
私も興味をもってRVCに手を出してみました。
そこで質問なのですが、勢い余って5分の素材を30個作ってしまったのですが多すぎるでしょうか?
また、この素材の数で学習させる場合、エポック数はどれぐらいが良いでしょうか?
回答いただけると幸いです。
少し多い気もしますが、問題ない程度かと思います。
素材が多いとその分学習に時間がかかりますが、当方であれば200エポック程度でまずは回してみますね…!
最新バージョンわからないですね💦
いろいろ操作方法もかわってくるし最新バージョンの解説
待ってます!
そろそろ情報が古くなってきましたね💦
近く更新情報を動画にしますね!
わかりやすい動画ありがとうございます
この動画の作業が終わった後の手順って概要欄の動画に続いていくかんじですかね?
あと2人以上の素材を組み合わせるのって可能なんですかね?
ご視聴ありがとうございます!
この動画で完成した音声モデルを使って概要欄にあるVC Clientで女の子になろうの動画で解説しているソフトでリアルタイムボイチェンジが可能になります…!学習時にAの声とBの声を混ぜるとあまりよくないと思います…AとBを別々に学習させて混ぜる(mergeといいます)ことは可能ですよー!
もものせさんご丁寧な解説動画ありがとうございます。
早速質問なのですが、7zipをダウンロードしても開くことができません。なぜなのでしょうか。対応の仕方があれば教えていただけると幸いです。
ご視聴ありがとうございます!windows11 22H2より標準で解凍可能となりましたが、7zipでの解凍を行うとどのような状態になりますか?何かエラー表記が出るなど
この動画の通りもものせさんのテスト配信で学習してみました。VCを起動するともものせさんの声になったのですが話しているとうっすらBGMが聞こえてしまいます。実際に使う場合はbgmなしの動画で素材を調達した方がよいですか?また、完全オリジナルの音源を作る際にはどのように学習するべきでしょうか?様々な人の音源を混ぜたりしたらよいでしょうか?よろしくお願いします。
基本的に学習に使う音声データはBGMやSEがないものを使うのがよろしいと思います!
オリジナルを作るのであれば学習時に混ぜるのではなく完成したpthファイルをマージする方法で混ぜる方が簡単ですよ!
@@yumeno_momonose なるほど!
ありがとうございます
コメント失礼します!質問なのですが、声の精度を上げるには5分ほどに切り分けた素材は多ければ多いほどいいですよね?
あまり多いと学習に失敗したりするので1時間分くらいがちょうどいいと思いますよ!
いつも有益な情報をありがとうございます。
自分でモデルを作るメリットとしては、好みの声にできること以外に何があるでしょうか?
ご視聴ありがとうございます☆
自分で好みのものを作れる、販売や配布物では品質に満足できない場合、いろいろと素材を追加したり変えたりして作れることが大きいと思います…!
勉強になりました!別言語の声を素材にすると変になるのでしょうか??
できないことはないですが、若干活舌が甘くなりがちですね…
コメント失礼します!他の方へのグラボについてのコメントでもものせ様はRTX4070を推奨されてますが、RTX3060もしくは3070でも問題なくできそうでしょうか?
大丈夫ですよ!ただし4000系に比べると学習速度は劣ります
@@yumeno_momonose ありがとうございます!
GTX 1050 を使用しておりますが、学習速度の遅さに限界を感じ、買い替えを検討しております!もものせさんが使用しているグラボでは、1時間の音源データを5エポックほど回した時どれくらいの時間を要しますか?
私の環境では5時間でした、、ので買い替えで速度向上がどれほど期待出来るのか教えていただけると幸いです!
1050ではさすがに厳しいですね💦
4090では1時間データ5エポックだと3分くらいです!4070tiで6~7分程度です!
VRAM量で大幅に学習速度が変わりますので現行世代だと最低でも12GBクラス(RTX4070~)をおすすめいたします
@@yumeno_momonose
ご返信いただきありがとうございます!なんとお速い...さすが最強スペックですね...。目安時間やおすすめグラボについて大変参考になりました!これからも動画楽しみにしております!
無音を切り詰めるってとこ行ったら急にフリーズするんですけど、グラボの問題ですかね。RTX3060です
無音の切り詰めはCPUでの処理なのでグラボは関係ないと思われます
Audacityの再インストールをお試しください
@@yumeno_momonose できました。ありがとうございます
配信とかで大きな声とか叫び声などが混じっている場合は無くした方が品質安定しますか?
音割れするレベルの大きな声や叫び声は削除したほうがいいですね
コメント失礼します!学習に使う際の音源をスマホで作成し、Googleドライブを通じて使うことは可能でしょうか…?
googleドライブを通してPCにデータを移行してということですかね??
毎晩寝る前にやってるんですが、満足のいくモデルが全然できません…。合計約27分無音部分カット済みのデータなら何エポック回せばいいと思いますか?音声データはゲームのデータから抜いてるので品質に問題ないです。
合計27分のデータとのことで少々不足気味な印象を受けます。
個人的な見解ですが45~50分程度は欲しいところです。また、ゲームから抜き出した音声データとのことですがすべて聞いてみて聞こえ方が違うもの(収録スタジオの違いやマイクの違い)は混ざっていませんでしたか?
@@yumeno_momonose
回答ありがとうございます!取れるボイスデータが少なくて激しい演じ方のやつとかも混じってたのでそれかもです…。ちなみに約1時間のデータであれば目安は何エポックほどでしょうか?
なるべく同じように聞こえる音声を学習させる方がよいと思います(こもっているように聞こえるものなどはNG)
1時間程度の素材であれば200~250エポック程度回すとよろしいかと思います
@@yumeno_momonose
もうちょっと素材集め頑張ってみます。回答ありがとうございます!
ちょっとわからなかったので質問失礼します。
動画上で説明されていたらすみません。
用意する音声データについてお聞きしたいのですが、どれぐらいの長さ(動画では5分程度)の物をどれぐらいの数用意すればいいのでしょうか?
5分程度のデータを10~12個程度用意するようにしていますね!
お答えいただきありがとうございます。
参考にさせていただきますね。
失礼な日本語だったらごめんなさい。
uvr5を使用することは多くないですか?品質が下がりますか?
それと元の素材がどれぐらいの時間あればよいですか?
5分のファイルが何戸で品質が良くなりますか?
動画の説明の中で説明していたらごめんなさい。
大丈夫ですよ!
どうしても品質が落ちやすいので基本的にUVR5は使わないですね。
元々音声にBGMやSEがないものを使った方が品質は圧倒的に高いです!
5分の音声を8~10個くらい用意するのがいいと思います!学習品質は元の音声の品質が良ければ良いほど高くなります。(日本語でのご質問ありがとうございます(*'ω'*))
女の子の声かわいいですね😋つい吹き出してしまいました。早速ですが、学習終了したのですが(ちなみに150回学習で12時間かかりました😱)pthファイルはできてたのですがindexファイルが見つかりません。この場合どのように対処したらよろしいでしょうか?😢
ありがとうございます(*'ω'*)
indexが生成されない場合は同じ学習名、パス、設定値でデータ処理→特徴抽出→特徴インデックスのトレーニングを行えば再生成されると思いますよ!
@@yumeno_momonose 早速の対応ありがとうございます。できましたありがとうございました。
久しぶりに見たら、バージョン2.0になってるんですね
去年の11月頃に使ってた(多分v1.6頃)のですが
2.0になって結構変わってますか?
声以外の音(環境音やキーボードの打音)、誤変換には強くなりましたよ!
コメント失礼します。
小音でもbgmが入ってしまうと、学習結果に影響を及ぼしますか?
それなりに品質に影響します。人間が聞いてわかるレベルですと品質は大きく低下するイメージです
学習時に、変換元の入力値(=自分自身の声)をパラメータとして与えるようなことはしないのでしょうか?
音声が同じ学習元のモデルでも、発声者によって出力される声が変わるのではないかと思うのですが
より最適なモデルづくりには自分の声も1つのパラメータとして与える必要はないの?と思ってしまいました。
RVCに関しては不要かと思います。
一緒に地声を学習させると変換できるピッチを越えた時に地声がそのまま出力されたとの報告もありました。
頑張った👍
疲れ申した('ω')笑
わかりやすい動画をありがとうございました。
途中で詰まってしまい、お聞きしたいことがあります。わかる範囲でお答えいただけますと幸いです。
ワンクリックトレーニング実行後、cmd上で下記エラーが表示されました。
WebUI上では「全工程が完了」と出ていますが、pthファイルが作られておらず、indexファイルのみ作られています。
epoc1, 2...と学習が進んでいなかったので、失敗していそうです。
これが原因かな?と思うところがあるのですが、現在、「GTX 1650」を使用しており、VRAM4GBと、他の方のコメントを見る限り性能不足かと思います。
今回は、性能不足を承知のうえ、お試しとして全体的に少ない値を設定しながら、最後までいけるかやってみようと思っていたのですが、そもそもグラボの性能を上げないと難しいでしょうか?
近いうちに、RTX4070あたりのグラボが搭載されたpcの購入を検討していますが、グラボの変更によって解決する(現状のグラボでは解決できない)エラーでしょうか?
ハードウェアの知識が足りず、基礎的な質問でしたらすみません(-_-;)
【エラー内容】
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 3.42 GiB already allocated; 0 bytes free; 3.44 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
ご視聴ありがとうございます!
VRAM不足(GPUメモリ)によって学習ができませんというエラーですね…
学習をするのであれば8GB程度のVRAMがないと厳しいです。
(もしかすると学習時のバッチサイズを一番小さくするといけるかも…?)
VRAM8GB以上かつNvidiaのグラフィックボードを選定していただけると改善するエラーですね
@@yumeno_momonose
ご回答いただきありがとうございます🙇♂️
バッチサイズ2で試したので、1でもやってみようと思います。
新pcを購入しようと思うので、改めてそちらでやってみます!
紹介されてるもものせさんのアーカイブだとBGMが少し入ってますが、これはそのまま学習させても大丈夫なんでしょうか!
BGMは品質が大きく劣るので映画やアニメの同時視聴を行っている方の配信などはBGMがないのでそういったところを探すといいと思います💦
@@yumeno_momonose ありがとうございます!BGMのない素材を探してみます〜!
@@yumeno_momonose その後動画の通り学習させてみたらとっても良いものが出来ました!!ありがとうございます!
コメント失礼します。
声がコンプレックスで使ってみようと思ったのですが、5GBのファイルをダウンロードすると容量オーバーになってしまいました。
使うにはマイクロソフトのサブスクリプションに加入するしかないのでしょうか?
モデルの作成には最低15GB程度(RVC本体を含め)必要ですね💦
不要なゲームデータなどがあれば削除して容量を空けるなどするかローカルでの学習ではなくGoogleコラボラトリーでの学習を視野に入れるといいと思います…!
コメント失礼します!Audacityにて学習音声を出力する前にノーマライズ処理は必要でしょうか?昔どこかでやった方がいいと聞きまして...
特に違いは感じないので不要かな?とおもいます…
@@yumeno_momonose ありがとうございます!重ねて質問申し訳ないですが、学習音声のサンプリング周波数は目標サンプリングレートに合わせなくても問題はないのでしょうか?(44100Hzの素材をわざわざ40kや48kに出力する必要はないのでしょうか?)
素材のサンプリングレートはそのままで問題ないですよ!
特に変更して書き出す必要はないと思っています…!
何回か作ってみたのですが、思い通りの声になりません、、
30秒~1分ほどの音声素材を50個ほど学習させていたのですが、もしかしたら音声素材の時間は長い方が良い等ありますか?
遅くなってすみません💦
まず、元素材の品質がかなり影響いたします。同じ人物の声だとしても配信や動画をまたぐと収録環境が変わっていたりして聞こえ方が違ってくるものがあると思いますがそういったものを混ぜるのは品質の低下につながります。可能であれば同じ配信などから合計1時間分くらいを抜き出すのがよろしいかと思います。また最近は5分程度の音声を12個学習するようにしていますね!
解説動画をつくる人はどうやって解説できるだけの情報を持っているのか
はじめまして。よろしければご回答いただければ幸いです。
最後のワンクリックトレーニング前までは順調なのですが、そこを押すとしばらくしてエラーが出ます。
CUDA out of memoryというのがコマンドに出ます。これってGPUの容量が足りてないのでしょうか?
私のGPUはGeForceGTX 1660で容量は6GBです。
GPUごとのバッチサイズを最小の1にしてみたりするのですが上手くいきません。解決策をお知りでしたらアドバイス頂ければ幸いです。
VRAM不足エラー(GPUメモリ)ですね…💦
バッチサイズを最小まで小さくしてもエラーになる場合は素材データが多すぎる可能性があります。
バッチ1でギリギリ回せる量まで減らすしかないと思われます…
@@yumeno_momonose ありがとうございます。素材数減らしてみます
初めまして、コメント失礼します。
質問なのですが、indexファイルはあるのですがpthファイルがないです。どうしたらいいでしょうか?
黒い画面の方にはepoc1 ~とちゃんと表示されていました。
素材が5分×17個作っていたので多すぎでしたかね...?
5か月前の動画に申し訳ないですが回答よろしくお願いします。
学習は進んでいたようですね💦
最終epocの後にfinal check~というような表記は出ていましたか?
途中で学習が止まってしまっている気がします
@@yumeno_momonose
たしかに途中で止まっていたかもしれないです...
次回学習を試す場合はブラウザ側で完了表記が出ていてもcmd(黒い画面)で指定したepoc数まで学習が完了しているか確認するといいかもですね…!
なるほどです、
ありがとうございます!
intel版でダウンロードしたんですけど自分のPCにgowebがでてこないんです😿何か方法ありますか!
windowsでの学習はNvidia系GPU 以外はできないのです…Linux系では他GPUでも可能なのですが…
どうしても学習が必要な場合は課金が必要ですがGoogle Colabなどの外部サービスの利用を検討してみてください
@@yumeno_momonose そーなんですね!丁寧にありがとうございます!
コメント失礼します。
わかりやすい解説動画ありがとうございます。
ASUS エイスース ノートパソコン Vivobook Pro 15 K6502HE 15.6型/ intel Core i9/ GeForce RTX 3050Ti/Windows11
を使っているのですが、試しに「GPUごとのバッチサイズ」を2にしたところ、学習の際に
CUDA out of memory
というエラーが表示されました。
何か解決策はございますでしょうか。
3050tiは専用ビデオメモリ(vram)が4GBのためメモリ不足のエラーです。バッチサイズ1ならギリギリ学習できるかもしれません
返信ありがとうございます。
VRAM不足だったんですね。
GPUごとのバッチサイズにもよると思いますが、どのくらいのVRAMがあれば、学習可能でしょうか。
答えづらい質問ですみません。
@@singer-q3z 学習自体は8GBあれば可能ですが、12~16GB程度あれば余裕をもって学習ができますね!
返信ありがとうございます。
新しいパソコンを買うかどうか、検討します。
これ学習素材なんですけど
しゃべってる音声と歌声両方あると歌を歌わせる目的ならいいとかありますか?
歌わせる場合でもしゃべっている音声があればいいですよ…!
最低30分くらいはほしいかな?といった感じですね💦
ワンクリックトレーニングで毎回エラー吐いて出力できません。どうしたらよいでしょうか?
途中に日本語のフォルダやファイルは無いです。
追記「ValueError: 40000 SR doesn't match target 48000 SR」と最後出て進めません
追追記色々試したら成功しました!まだ試行錯誤してみます!
go-webを開いた後にエラー、指定されたモジュールが見つかりませんと出てくるのですがどうすればいいのでしょうか
グラボのドライバが古い可能性ありです…
更新後、改善するか試してみてください!
学習用の素材データーの動画時間はどのくらいが理想なのでしょうか?
無音部分を除いて40~50分程度は欲しいかな?といったところですね…!
すみません、コメント失礼します。
ファイル数287、サイズが389MBのデータを学習させたところ、
RuntimeError: The expanded size of the tensor (17280) must match the existing size (6166) at non-singleton dimension 1 Target sizes: [1, 17280]. Tensor sizes: [6166]
とエラーが表示されました。
何か解決策はございますでしょうか。
おそらくですが素材数が多すぎるんだと思います
ファイル数287個で合計の分数はどの程度でしょうか?
返信ありがとうございます。
38分30秒です。
1ファイル20秒のものあるのですが、短く分けた方が良いでしょうか?
逆に細かすぎると思います
1つのファイルが5分くらいになるようにつなげて学習させてみて改善するか試すといいかもしれません
面倒であればまずは今ある素材を10個程度適当に見繕って学習が進むかチェックですね!
5分の素材を50分用意するのと
1文ずつ数秒で分けたものを50分用意するのは
どちらの方が品質が良くなるかわかりますか?
個人的には5分くらいの素材を複数のほうが安定した品質を出しやすい気がします…!
コメント失礼致します。
2点質問させていただきたいのですが、
1つ目が、文字と文字の間の不自然な声の出し方をもものせさんのように、自然にするコツはありますか?
自分の素材は1〜2時間の音声データ(BGMをUVR5で消したもの)を5分毎に分割したものを使って総エポック数150ほどで回しております。
2つ目は出来上がった学習ファイルを再度トレーニングにて追加学習することは可能でしょうか?
Google版の方で追加学習されていた方がいらっしゃったのですが、assetのデータを参照して新しいwavファイルを読み込ませて学習したりできるのでしょうか…
長文失礼いたしました。
お返事いただければ幸いです。
2つ目の質問に関しましては
・今まで通りに追加教育したい音声素材を準備
・logsフォルダの中のGモデルDモデルのパスを一番下の左の欄に入力
・モデルのトレーニングで実施できそうなので、今度試してみようと思います。
遅くなり失礼いたしました💦
変換後の音声に違和感が出るのは学習に使用した素材が影響していることが多いです。(今回であればUVR5でBGMを処理していること)元からBGMなどがない素材に比べるとクオリティは数段落ちてしまいます。
追加学習に関してはその認識で間違いないですね!
@@yumeno_momonose
ご回答ありがとうございます。
やはり素材の違いでしたか…
今度はBGM無しの素材で作ってみたいと思います。
ありがとうございますj!!
追加学習の件なのですが、GもDもモデルのタイトルの数字が大きいものとそうでないものでは、試行回数が違うということでしょうか?
そのため一番大きい数字のモデルを二つ使えばよろしいでしょうか?
途中学習ファイルらしいので基本は一番大きい数字のものを使えばいいと考えてますね…!
PCはnVidiaのグラボ積んでないので(Ryzen7オンボード)intelAMDになりますか?
オンボードグラフィックで学習は現状不可能です…
初コメ失礼します、動画とあまり関係ない質問ですみません。ruclips.net/video/DSx2UJqP0mM/видео.htmlsi=tWV5Ubd8QqBSVUH0
こちらの動画で使用されていた百鬼あやめさんの声は、どこかで購入されたものですか?それともこの動画のように学習されたものでしょうか?
またVC clientに最初から入っているデータでボイチェンしてみたのですが、自分の滑舌とかのせいなのか言葉の最後の音にノイズが入ってしまうことが多かったです。何か解決策があれば教えていただきたいです。
ボイスモデルは当方で作成したものになります…!
もとから入っているものはあまり良いイメージがないですね💦NvidiaBroadCastなどのノイズ制御ソフトを試してみるといいかもです
@@yumeno_momonose 返信ありがとうございます!この動画を参考に学習もやってみます。またわからないことがあったら質問するかもです…
今更ながら質問失礼します。RVC WebUIのステップ2でno-feature-todoと表示されてしまうのですがどうしたら良いですか?ステップ1は問題なく通過しているのですが...
エラー内容的にパスやファイルに日本語やスペースが含まれている気がするのですがいかがでしょうか?
学習させた際のデータ圧迫が厳しいのですが、モデル作成後節約のために消去できるデータってありますでしょうか。
logs→学習した名前のフォルダはindexデータを取り出した後であればフォルダごと削除してしまってOKですよ!
質問失礼します!
VC Cliantでボイチェンした際に2秒ほど声にラグが起きてしまうのですがこれくらいは仕方ないですか?VC Cliantのバージョンは1.5.3.18aを使っています。
CHUNK値によってはそれくらい遅延してしまいますね💦
VCC自体にそれなりの遅延があります
@@yumeno_momonose 返信ありがとうございます!CHUNK値少しいじってみます。動画めっちゃわかりやすくて助かりました!
学習用の音源を歌から調達すると、しゃべり声への変換が自然じゃなくなったりしますか?
ちょっと厳しい気がします💦
なるべくしゃべり声からの学習を推奨しますね…!
分かりました!ありがとうございます!
質問失礼します。最後のワンクリックトレーニングの段階で、"RuntimeError: The expanded size of the tensor (17280) must match the existing size (2640) at non-singleton dimension 1. Target sizes: [1, 17280]. Tensor sizes: [2640]"と表示され、うまく処理されません。考えられる原因をご教授いただけましたら幸いです。(ファイル名にも日本語は含まれていません。)
pythonのバージョンは何がインストールされていますか??
@@yumeno_momonose 3.10.10です。
@@yumeno_momonose 3.10.10です!
問題ないですね…💦
特徴インデックスのトレーニング後、ワンクックトレーニングではなくモデルのトレーニングから学習させても同様でしょうか?
@@yumeno_momonose だめでした💦
harvestとrmvpeとrmvpe_gpuではどれが一番高品質ですか?
なんとなく個人的な見解ですがrmvpeが一番好きですね!
rmvpe_gpuは若干粗がでる気がします
ありがとうございます。やってみます!
もう一つ質問なんですが、素材のデータは高い声がないほうがいいのでしょうか
それとも少し高い声を入れたほうがいいのでしょうか?
入れておいた方がいいと思いますよ!いろいろな感情が乗ってる素材の方が実使用で破綻しづらいです!
コメント失礼します!
ワンクリックトレーニング後にindexはあるのですがpthがありません!
あとcmdには
RuntimeError: Error(s) in loading state_dict for SynthesizerTrnMs768NSFsid:
size mismatch for dec.ups.0.weight_v: copying a param with shape torch.Size([512, 256, 16]) from checkpoint, the shape in current model is torch.Size([512, 256, 24]).
size mismatch for dec.ups.1.weight_v: copying a param with shape torch.Size([256, 128, 16]) from checkpoint, the shape in current model is torch.Size([256, 128, 20]).
と記載されていましたが関係はありますか?
step1とstep2を実行後にワンクリックトレーニングではなくモデルのトレーニングを実行していただきEpoc1 Epoc2と学習が進むか確認してみてください…!
@@yumeno_momonose モデルのトレーニングを実行してみたんですが
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 10.00 MiB (GPU 0; 4.00 GiB total capacity; 2.07 GiB already allocated; 0 bytes free; 2.16 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
こんな風なエラーを出されてしまいました・・・
VRAM不足のエラーが出てますね💦
使用しているのは970、1050tiあたりのグラボでしょうか?
最低6GB程度無いと学習は厳しいと思います…
Audacityのリンクがないので貼ってくださるとありがたいです!
ステップ3のワンクリックトレーニングを行うと
「IndexError: list index out of range」
というエラーが出てくるのですが原因わかりますかね…?
忙しい中質問すみません…
遭遇したことのないエラーですね💦
少し調べてみます
@@yumeno_momonose
返信ありがとうございます!
このコメントをした後色々試したのですが、一旦Pythonをアンインストールしてから再インストール、RVC1006NvidiaではなくRVC0813Nvidiaでこの動画の手順通りにやり直したところ問題なく動作しました!
自分の他にも同じようなエラーが起きている方がいれば参考になると幸いです
MacBookの場合はMacBookのPythonを選べばいいですか。
申し訳ありませんMac環境がなく検証ができないのですがpythonのマック版があればそちらをインストールでいけるとおもいます…!
色々rvc作ったり買ったりしているんですが自分の声が悪いのかマイクが悪いのか、なかなか納得のいくやつがありません!
心折れかかってます!
作った場合声が素材と全く違ってしまったり、買った場合サンプルボイスと全く違う声になってしまいます!
クライアントの設定等もちゃんと調べてやってるんですがうまくいきません…
あとなんか活舌すごく悪くなります…
助けてください…
活舌が甘くなるのはモデルが原因の可能性が高いと思われます…
無音の切りつめで切りすぎていたり、音声データの声が鮮明でなかったり…
まずはマイクの入力音量を小さめにしてみると少し改善するかもです
突然コメントしてしまって申し訳ありません。ワンクリックトレーニングを押した後の処理画面で
Converged (lack of improvement in inertia) at step 328/6275
と表記されて止まってしまうのですがこれは何がいけないのでしょうか…
たまに同じような現象で悩んでいる方をお見受けするのですが原因の特定が難しく💦
使用しているRVCのバージョンとGPUをお教えいただけますか?
@@yumeno_momonose RVCはRVC1006Nvidia (これで合っているでしょうか) で、GPUはRTX4060Tiです!
同じ方がいらっしゃるんですね😢
当方も1006Nvidiaですね!
ちなみに学習に使用したデータ数と合計の素材の時間(だいたいでかまいません)をお教えいただけますか??
@@yumeno_momonose データ数は10で、素材の時間は1時間20分くらいです!
返信が遅くなってしまいごめんなさい🙏💦
初歩的なことでつまづいているのですが、デスクトップをDesktop表記にする方法が知りたいです…。
オーディオをエクスポートする際のフォルダー名に必ずカタカナでデスクトップの文字が入ってしまいます…。。
おそらくOneDriveと同期されているのが原因です。
面倒であればCドライブ直下にフォルダを配置するといいですよ!
ワンクリックトレーニングまでは上手く出来たんですが、エポックが1回で止まってしまうんですけど原因分かりますかね..
使用しているGPUによっては1エポック20分近くかかるものもありますが止まってどれくらい時間がかかってますか?
gpuは1660superで30分ほど止まっております。それとFalse is deprecated. In a future pytorch release, stft will return complex tensors for all inputs, and return_complex=False will raise an error.のようなエラー?が発生して止まっています・・@@yumeno_momonose
さすがに30分は遅すぎる気がします💦
1epchの後にこのエラーが表示されてますかね??
nvidiaとRadeonだったらどっちの方が早いとかありますかね?
nvidiaのほうが早いです。またトラブルも少ないかと…!
質問失礼します。RVC Web UIのステップ2aのデータ処理でエラーが出てしまうのですか、原因は何でしょうか
まずはcmd上でのエラーを確認したほうがいいですね!
RVC web UIをを開こうとすると503
Hugging Face is in maintenance と出てきてしまうのですがどうすれば良いでしょうか?
現在hugfaceのサーバーが落ちているようなので復帰したら起動可能かと思います…
ありがとうございます。何度もすみませんが学習させるデータは合計で最低何分くらいあればまともな音声になりますか?
こもっていたり、音が割れたりしていない音声であれば40~50分くらいあればいい感じです!
エミュレータ入れて斉藤さんで釣りやろうかなぁ
エポック数とかは良く分から無いけど、トータル1時間なら30と150で大丈夫そうですか?
元素材によりますが合計1時間程度の素材であれば200程度回してます…!
@@yumeno_momonose トータル1時間で30と200ですね!ありがとうございます!
質問失礼します。
2ヶ国語をしゃべる人の英語で喋ってる素材と日本語で喋っている素材を学習させた場合どうなるんでしょうか。
同一人物がしゃべっている場合ですが、日本語のみの時とほぼほぼ遜色ないモデルが出来たはずです…!
@@yumeno_momonose ありがとうございます
ワンクリックトレーニングした後にpthファイルはありますが、addedなんたらのファイルがみあたりません
indexファイルの生成に失敗している可能性があります。
同じモデル名、設定値でindexのトレーニングを実行してみてください!
@@yumeno_momonose 明日試してみます!
分からなかったらまた聞きます
@@yumeno_momonose 無事にできました!対応が早くて助かりました!
トレーニング用の音声を入れる、step1のデータ処理のところで「ディレクトリ名が無効です」とでてしまいます。MP3で音をダウンロードし、メディアプレーヤー?に入っている音源のパスをコピーして、しっかり名前も日本語表記になっていたので直しました。何が原因でしょうか💦
日本語以外にもスペースなどが入ってたりしませんか?あとパス自体に日本語が含まれてませんか?特に(デスクトップ)
@@yumeno_momonose 確認しましたが、スペースもなく、日本語も含まれていませんでした...
状態を見てみないとなんとも言えないのでどうしても解決しなければDMいただければわかる範囲でアドバイスさせていただきます!
RX6650XTを使用していてwin ONNX(cpu,DirectML)をダウンロードしたのですがGPUの欄にCPUしか表示されません...対処法などありますでしょうか?
DirectML版の場合は横並びでCPU GPU0 GPU1 GPU2のような表記になってると思うのですが確認できますか?
性能足りなくて10時間GPU100%にしてファイル作ったんですけど皆さんどれぐらいかかりました?
RTX4000番台だと200エポック2時間ちょっとらしい…
4090で素材60分程度で1時間くらい
pthのファイル(最後の二つ)はどこで使えばいいですか?
ファイル2つが完成=声の学習が終わった状態です
完成したものはVC Clientというもので使用が可能です。『VC Clientで女の子になろう』の動画を参照していただければ幸いです
ディープ学習させて、13時間むりさせて(i7-13650 HX /rtx 4060 laptop)、声がやはり雑音入ったり、ロボットのような声があったりします、地声が低めですが、関係ありますでしょうか?
モデルの音声はあみたろからダウンロードのものです
学習させた素材が細切れすぎてきれいに学習できていないような気がします。
どれくらいのデータ量を何エポックで回しましたか?13時間となるとかなりの量と思いますが、多すぎ、回しすぎもよい結果にはなりづらいです💦
17:42 もものせさんのような綺麗なモデルを作る場合、5分の素材は何個ほどいるでしょうか?教えて欲しいです
合計60分くらいあれば完璧です!
@@yumeno_momonose 了解です!ありがとうございます!
トレーニングを行おうとしたのですが、GPUを認識してくれません。
RVCの画面では「トレーニングに対応したGPUが動作しないのは残念です。」と表示されてしまいます。
僕のPCは、
GPU0にIntel(R) UHD Graphics 630
GPU1にNVIDIA GeForce MX250
となっています。
解決法ご存知であればご教授いただきたいです…😢
もともとインテル内蔵グラフィックUHDシリーズでは学習ができず、MX250はVRAMが2GBが最大でこちらも容量が足りず学習ができないためそのような表示になっているかと思います。
@@yumeno_momonose
なるほどです
容量が足りなかったんですね
ではcolab等から行う必要がありそうですね…
勉強になりました!
ありがとうございます🙇
コメント失礼します。
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x83 in position 28: invalid start byte
こちらのエラーが出た後何か処理が始まるのですが途中で止まってしまいます。
何かわかりませんか?
すみませんこちらでは確認できていないエラーです💦
python関連のエラーのようなのですが、一度環境を整えなおしてみることをお勧めいたします。
pythonのアンインストール、RVCの入れ直しを検討してみてください
聞き逃してしまったのだと思いますが、18分17秒の所の、さきほどつくったフォルダってどのことでしょうか、、、!!cドライブに新しくフォルダを作成(C;\とれえにんぐ)という名前で作成→その中にクリップした音声を入れて、サイトでデータ処理を行うとエラーが出てしまいます。
音声データの書き出しフォルダですね!場所はどこでも構わないのでローマ字表記のフォルダを作ってください。その中に音声ファイルを書き出します。※書き出した音声データもローマ字表記で
@@yumeno_momonose OSError: [WinError 123] ファイル名、ディレクトリ名、またはボリューム ラベルの構文が間違っています。:って出てきてしまいます、、、
状況のスクショをいただきたいのですがこちらでは画像を貼れないのでよろしければDMください
自分のGPUがIntelでそのファイルをダウンロードしてワンクリックトレーニングを押したんですけどなぜかファイルに保存されていません。どうすればいいですか?
現状Windows環境ではNvidia製GPU以外での学習はできないと考えてもらっていいと思います…
すみません説明不足でした
RVC解凍したあと、go webが無いのですがどうすれば良いでしょうか、、ちなみにGPUはAMDでAMDバージョンをダウンロードしています、
遅くなり失礼いたしました💦
説明不足ですみません、Nvidia製GPU以外をご利用の場合はwindows上での学習は基本的に不可能と思ってもらっていいと思います。Linux環境などでは可能です。
@@yumeno_momonose とんでもないです!返信ありがとうございます!
なるほど、、Linux環境の構築は難しいでしょうかね、、?
@@vqwellx それなりの知識は必要かと思います…多少お金はかかりますがgoogle colabratoryを使用して学習するという方法もありますね!
@@yumeno_momonose なるほど!遊びでやってみたいだけなので色々学んでみてLinux環境でやってみようと思います!また何かあったらお聞きしてもいいでしょうか、?
@@yumeno_momonose なるほど!ありがとうございます!興味の範囲でやってみたいだけなのでLinux環境作ってやってみようと思います!出来るかは分かりませんが!笑
またどうしても分からなかったら質問してもよろしいでしょうか、?
最低でもRTX4070以上あった方がいいですか?
学習させるのであればVRAMが多ければ多いほど速いので購入を検討するのであればやはり4070クラス~が選択肢としては正解と思います!
AIに学習させる音声ファイルは、声のみでないとダメですか?
(声以外というのは、背景BGM等です。)
できないことはありませんが、品質面ではどうしても音声のみと比べると圧倒的に劣ってしまいます…
@@yumeno_momonose 声以外のノイズに強くなったりする、みたいなのってあったりしますか?
ないとおもわれます…!
ありがとう!学習の参考にしますわ!(?)@@yumeno_momonose
質問なのですが、ステップ2aで接続エラーになる要因って
何が考えられますでしょうか?
なんとなくセキュリティソフトが怪しいかと…!ウイルスバスター、ノートンみたいなの入ってませんか??
@@yumeno_momonoseソフト消したら行けました!
ありがとうございます!
windowsパッチファイルを開いて黒い画面が出てもすぐ消えますどうしたらいいですか?
学習ソフト(RVC)とVC Clientのどちらですぐ画面が消える問題が起きてますか?
解説ありがとうございます!
質問なのですが、
7時間分程度の動画からBGMなどを切り取った上で5分刻みで分割しました。
そのうえで総エポック数150で実施してみたのですが、話してみると外国人のように一部の発音がうまくできていないような形で出力されます。
試しに50音などを順番に話した時も一部の発音がうまく認識されませんでした。
これは、元にしたデータ側に発言が少なすぎることが原因でしょうか?
それとも学習が足りていないのでしょうか?
また、データから雑音を切り取るとき、吐息なども消したほうがいいのでしょうか?
実際にデータを確認させていただいていないので確実なことは言えませんが、BGMを処理したことで破綻が大きくなっている可能性が高いです。処理したデータと元から音声だけのものを比べると処理したものが数段劣ってしまいます。私個人の見解ですが、吐息などは入れて学習させた方が自然な仕上がりになりやすいと思います
25:26
自分用保存
昔使ってたのですが今は機械ぽさってなくなってますか?
初期のころと比べるとかなりいい感じになってると思います…!モデルによる差異が大きいので品質さえしっかりしていれば機械っぽさは出づらくなってる印象ですね!
ゲーム配信しながらずっと使ってたら結構重くなっちゃいますか?
100時間程度連続稼働してますが問題なさそうです!
@@yumeno_momonose わかりました!ありがとうございます!
全工程が完了って出てアセットを見に行ったんですけどPTHファイル?がなくてindexファイルだけが生成されてるんですけどどういうことでしょうか😢
ワンクリックトレーニングに失敗しています💦
cmd(黒い画面)でepoc1、epoc2と順番に学習は進んでましたか?
初コメです。RVCのダウンロードのところでダウンロードしたファイルがPDFのような表記でもものせさんのような圧縮ファイルをダウンロードできません。私が何かミスをしているのでしょうか。
ダウンロードに失敗していませんか?💦
ブラウザを変えて再度ダウンロードしてみるといいかもです…!
@@yumeno_momonose ご返信ありがとうございます! そのDLしたファイルを解凍すれば大丈夫でした。失礼いたしました。重ねてご質問になりますが、アニメ等のボイスを抜き取る場合、BGMなどほかの音が入ってしまうので、15秒とかの音声データだとさすがに機械学習は難しいでしょうか?
合計15秒ということであれば厳しいですが、1音声データ15秒を何個もということであればいけると思います!
ご回答頂き、ありがとうございます! いろいろ準備してやってみようと思います。mp3変換の時の広告?がひどいのが大変ですね(笑)