Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
もしかして、亡くなった人(だけ)で番組作れる時代になったのか?
可能性はすごーくありそう…
視聴率めっちゃ高そう志村けんさんとかみたら泣いちゃう
過去の動画も含め参考にさせて頂いてやってみました…!学習環境は以下で行いました。これから試される方の目安になればと思います。CPU:Core i 9-12900KFRAM:32GBGPU:RTX3080Ti(12GB)1時間40分分の音声データ(20秒分割309ファイル)で学習↓エポックごとの保存頻度:5総エポック数:150GPUごとのバッチサイズ:6ワンクリックトレーニング完了時間:4時間半※大体1エポックあたり2分前後→かなり本家とそっくりな音声ができあがりました!今回の動画のテーマでもある歌声用に学習真っ最中ですが…2時間分の音声データ(20秒分割396ファイル)で学習エポックごとの保存頻度:5総エポック数:700GPUごとのバッチサイズ:4ワンクリックトレーニング完了時間:40時間(推定)※大体1エポックあたり3分半前後→楽しみワンクリックトレーニング中について、CPU使用率は20%を保っている感じで、データ処理と特徴抽出でガッツリ100%張り付きますが、そんなに性能を使っている感じでは無さそうです。RAMは、4〜5GB食うので最低16GBは積んでおかないとキツそうです。バッチサイズですが、総エポック数を増やすとバッチサイズを小さくしないと、自分の環境だと何故かエラーで進まなくなります…。(多分VRAMがオーバーフローしてるかも)バッチサイズ6で11.2GB、バッチサイズ4で8.9GB使用している様子です。VRAMを大量に積んでるグラボを使うと学習効率はかなり上がりそうですね。一般家庭の場合RTX3090や4090など。RTX A6000とか持ってる猛者は…流石にいないか…w)
有益な情報助かります!!さすがにA6000は値段の桁が一つ違いますからねw
過去の動画も含め参考にさせてもらいました学習に関しては高音、低音を含む音声素材15秒区切りぐらいのを5時間分用意して200エポック、バッチサイズ4でやりましたがいい線行ってましたので参考までに結局のところ選ぶ素材と前処理がどれだけ丁寧にできるかなきがします。伴奏ボーカルの分離だったりエコー除去についてですがGradioのモデル推論の横のタブを使えばフリーソフトを落とさなくてもできるのでそれを使ったほうが楽かなと思いました
こちらこそ参考になります!感謝!
初めまして! 一つお伺いしたいことがあります。RVCで作成した学習済みファイルは、「音声から音声に変換する」という場合にしか使用できないのでしょうか?「日本語テキストを音声に変換する」という場合にも使用可能なら、それもまた便利そうだと思いましたが、解説している動画やサイトが見つかりません…
RVCの場合は基本的に音声→音声の変換になります。テキスト→音声の変換であればStyle-Bert-VITS2というものが現状品質、精度ともに一番かと思いますので試してみるといいかもです!
配布されているモデルを使って行う場合、どのようにすればよいのでしょうか?
モデル推論のタブから配布されているpthを選択する感じです。動画内でpthを選択してると思うのですが同じように行います
分かりやすい説明ありがとうございます!質問なんですが、作成したpthファイルを追加学習させることはできますか?
すみません、追加の学習は行ったことがないため現状わかりかねます…ノイズが入っていたり高音が出せないなど→元データの不出来として新たに作るパターンしか行ってこなかったもので…
@@yumeno_momonose ご回答ありがとうございます。僕もまた新たに作ることにします。
学習させた音声フォルダにindexファイルがなく、phtとjsonファイルしかないのですが、作成時になにかミスをしているのか、そもそも作成に成功していないのかわかりません。アドバイスいただければ幸いです!
Logsフォルダ内にも生成されていない場合は特徴抽出の時点で失敗している可能性が高いですね…
特徴検索を使わない場合はlogsを削除しても大丈夫ですか?容量食ってるので
logsフォルダ内に学習時につけた名前のフォルダが生成されていると思います。こちらはすべて削除して大丈夫ですよ!
@@yumeno_momonose ありがとうございます!
10秒の音声データを30用意し、250エポックで学習させたものを歌わせると、声は似るのですがガビガビになってしまいました。これはエポック数が足りないことが原因ですかね?
学習回数は250も回していれば十分だと思います…!音声素材がよくないとガビリの原因になりやすいです。高音域のカスレなどは学習時に高めの声を入れることである程度は改善されるとは思います…!
@@yumeno_momonose高音域のかすれがまさにそうでした。音声データがほとんど一定のトーンでしたので、それが原因っぽいですね。ありがとうございます
質問なのですが、UVRのGPUのチェック部分が黒くなっていて押せません。もしかしてアプデなどでHQ1はGPU非対応になりましたか?
最新版をインストールして確認してみました。UVR-MDX-NET Inst HQ1でテストしてみましたが問題なくGPU処理可能でした。グラボのドライバを更新すると改善する可能性がありますのでお試しください
@@yumeno_momonose 遅くなりました!そうなんですね……ありがとうございます!
いつも解説動画助かっています...!質問なのですが音声を切り抜くUVR5について、ハモリの抜き方を教えていただきたいです。ハモリパートになった瞬間、音割れや声が崩れたりでうまくいかなくて...
こんにちは!実はハモリ部分の処理に関しては永遠の課題だと思っています。UVR5でメインボーカルのみを切り出すモデルもありますのでそちらを使ってみるのもいいかもしれません。(正直あまりうまくいった試しがないのが現状です…)
@@yumeno_momonose MDXのkaraoke2を使ってやってみたのですが、簡単なハモリしか入ってない曲だと安定しました。それでも手を加えないといけないところは1個2個出てきますね、抜いたハモリもRVC通して重ねてみて、何言っているかわからないですがまあ試す価値はある程度でした。とても助かりました、ありがとうございます!
@@hiraiwa-kana お疲れ様です!有益な情報助かります!!
歌わせたとき、声を伸ばすところあガビガビになってしまうのですが、どうしたらいいですか?
ガビるのは主に高音域ですかね??使用しているモデルの音域が足りないとそのようになりやすいです…
いつも動画投稿ありがとうございます!質問なんですがRVCで音声を学習する時もものせさんは3時間とかかけてると思いますが自分は40分の音声を学習させようしたら20分ぐらいで終わってしまい学習された音声も少し音声元と似ているだけでそっくりな声は作れないです!どうすればいいでしょうか?
こんにちは!お使いの環境によっては爆速で終わりますよ(RTX4090などvramが多いGPU)ちなみに学習の際、エポック数はどのくらいで行っていますか?また、コマンドプロンプトの表示はしっかり指定したエポック数で学習を完了しているかログが残っているので確認してみてください!
モデル推論で動画の通りにしたのにも関わらず変換しようとするとエラーと出て変換されません。どうすれば良いでしょうか?
RVCを起動した際に黒い画面が一緒に開いていると思います。そこにエラー内容が出ていると思うのですがいかがでしょう??
@@yumeno_momonose返信ありがとうございます。画面にはAttributeError: 'NoneType' object has no attribute 'dtype'と出ています。自分でも色々調べてみたのですがよく分からず...お力添えの程、何卒お願い致します。
@@いちご-j3h9f 変換元の音源のパスが見つからない(間違っている)際に出るエラーのようでした。Cドライブ直下にフォルダを作成(ローマ字)し、そこへ音源を入れてそのパスをコピー、モデル推論で指定するとどうでしょうか??
@@yumeno_momonose返信ありがとうございます。試してみましたがダメでした...pthファイル側の音源に問題があるのかと思い、言われた通りにしてみてもダメ、学習元の音源に問題があるのかと思い言われた通りにしてもダメでよく分かりません。pthファイルはネットにあるものをダウンロードしているのでそちら側にも問題があるのかと思い、以前の動画で使われていた物も使用してみましたがダメでした。何卒お力添えをお願い致します。長文失礼しました。
@@いちご-j3h9f pythonのバージョンは何を使っていますか?当方は3.10.10になっています。もしかすると新しいバージョンすぎたりするかもしれません。同じバージョンを試していただいて(他バージョンはアンインストール)みてもよろしいですか?
音痴の自分にAIで歌わせてみたくて助かります。₍さっそくやってちょっと笑いました)ちなみに自分も花澤さんっぽい声にしたくていろいろやってるけど全然音割れするは機械音っぽいわで声似てないわで全然うまくいかない。
いろいろできて楽しいですよね!ちょっとしたアドバイスを…音声を学習するときのコツは・とにかく声だけで(バックのBGMなどは極力無く)・無音の時間もノイズになるのでそれもカット・1つのファイルは長くても15秒程度・同じ声質の声を最低でも30個程度用意こんな感じでそれっぽい学習ファイルができますよ!
@@yumeno_momonose ありがとうございます。やってみます
スマホだと出来ませんか?
スマホは対応してないですね💦
もしかして、亡くなった人(だけ)で番組作れる時代になったのか?
可能性はすごーくありそう…
視聴率めっちゃ高そう
志村けんさんとかみたら泣いちゃう
過去の動画も含め参考にさせて頂いてやってみました…!
学習環境は以下で行いました。これから試される方の目安になればと思います。
CPU:Core i 9-12900KF
RAM:32GB
GPU:RTX3080Ti(12GB)
1時間40分分の音声データ(20秒分割309ファイル)で学習↓
エポックごとの保存頻度:5
総エポック数:150
GPUごとのバッチサイズ:6
ワンクリックトレーニング完了時間:4時間半
※大体1エポックあたり2分前後
→かなり本家とそっくりな音声ができあがりました!
今回の動画のテーマでもある歌声用に学習真っ最中ですが…
2時間分の音声データ(20秒分割396ファイル)で学習
エポックごとの保存頻度:5
総エポック数:700
GPUごとのバッチサイズ:4
ワンクリックトレーニング完了時間:40時間(推定)
※大体1エポックあたり3分半前後
→楽しみ
ワンクリックトレーニング中について、CPU使用率は20%を保っている感じで、データ処理と特徴抽出でガッツリ100%張り付きますが、そんなに性能を使っている感じでは無さそうです。RAMは、4〜5GB食うので最低16GBは積んでおかないとキツそうです。
バッチサイズですが、総エポック数を増やすとバッチサイズを小さくしないと、自分の環境だと何故かエラーで進まなくなります…。(多分VRAMがオーバーフローしてるかも)
バッチサイズ6で11.2GB、バッチサイズ4で8.9GB使用している様子です。
VRAMを大量に積んでるグラボを使うと学習効率はかなり上がりそうですね。一般家庭の場合RTX3090や4090など。RTX A6000とか持ってる猛者は…流石にいないか…w)
有益な情報助かります!!
さすがにA6000は値段の桁が一つ違いますからねw
過去の動画も含め参考にさせてもらいました
学習に関しては高音、低音を含む音声素材15秒区切りぐらいのを5時間分用意して200エポック、バッチサイズ4でやりましたがいい線行ってましたので参考までに
結局のところ選ぶ素材と前処理がどれだけ丁寧にできるかなきがします。
伴奏ボーカルの分離だったりエコー除去についてですがGradioのモデル推論の横のタブを使えばフリーソフトを落とさなくてもできるのでそれを使ったほうが楽かなと思いました
こちらこそ参考になります!感謝!
初めまして! 一つお伺いしたいことがあります。
RVCで作成した学習済みファイルは、
「音声から音声に変換する」という場合にしか使用できないのでしょうか?
「日本語テキストを音声に変換する」という場合にも使用可能なら、
それもまた便利そうだと思いましたが、解説している動画やサイトが見つかりません…
RVCの場合は基本的に音声→音声の変換になります。テキスト→音声の変換であればStyle-Bert-VITS2というものが現状品質、精度ともに一番かと思いますので試してみるといいかもです!
配布されているモデルを使って行う場合、どのようにすればよいのでしょうか?
モデル推論のタブから配布されているpthを選択する感じです。
動画内でpthを選択してると思うのですが同じように行います
分かりやすい説明ありがとうございます!
質問なんですが、作成したpthファイルを追加学習させることはできますか?
すみません、追加の学習は行ったことがないため現状わかりかねます…
ノイズが入っていたり高音が出せないなど→元データの不出来として新たに作るパターンしか行ってこなかったもので…
@@yumeno_momonose ご回答ありがとうございます。
僕もまた新たに作ることにします。
学習させた音声フォルダにindexファイルがなく、phtとjsonファイルしかないのですが、作成時になにかミスをしているのか、そもそも作成に成功していないのかわかりません。アドバイスいただければ幸いです!
Logsフォルダ内にも生成されていない場合は特徴抽出の時点で失敗している可能性が高いですね…
特徴検索を使わない場合はlogsを削除しても大丈夫ですか?容量食ってるので
logsフォルダ内に学習時につけた名前のフォルダが生成されていると思います。こちらはすべて削除して大丈夫ですよ!
@@yumeno_momonose ありがとうございます!
10秒の音声データを30用意し、250エポックで学習させたものを歌わせると、声は似るのですがガビガビになってしまいました。これはエポック数が足りないことが原因ですかね?
学習回数は250も回していれば十分だと思います…!
音声素材がよくないとガビリの原因になりやすいです。高音域のカスレなどは学習時に高めの声を入れることである程度は改善されるとは思います…!
@@yumeno_momonose高音域のかすれがまさにそうでした。音声データがほとんど一定のトーンでしたので、それが原因っぽいですね。ありがとうございます
質問なのですが、UVRのGPUのチェック部分が黒くなっていて押せません。もしかしてアプデなどでHQ1はGPU非対応になりましたか?
最新版をインストールして確認してみました。
UVR-MDX-NET Inst HQ1でテストしてみましたが問題なくGPU処理可能でした。
グラボのドライバを更新すると改善する可能性がありますのでお試しください
@@yumeno_momonose 遅くなりました!そうなんですね……ありがとうございます!
いつも解説動画助かっています...!
質問なのですが音声を切り抜くUVR5について、ハモリの抜き方を教えていただきたいです。
ハモリパートになった瞬間、音割れや声が崩れたりでうまくいかなくて...
こんにちは!実はハモリ部分の処理に関しては永遠の課題だと思っています。UVR5でメインボーカルのみを切り出すモデルもありますのでそちらを使ってみるのもいいかもしれません。(正直あまりうまくいった試しがないのが現状です…)
@@yumeno_momonose
MDXのkaraoke2を使ってやってみたのですが、簡単なハモリしか入ってない曲だと安定しました。それでも手を加えないといけないところは1個2個出てきますね、
抜いたハモリもRVC通して重ねてみて、何言っているかわからないですがまあ試す価値はある程度でした。
とても助かりました、ありがとうございます!
@@hiraiwa-kana お疲れ様です!有益な情報助かります!!
歌わせたとき、声を伸ばすところあガビガビになってしまうのですが、どうしたらいいですか?
ガビるのは主に高音域ですかね??
使用しているモデルの音域が足りないとそのようになりやすいです…
いつも動画投稿ありがとうございます!
質問なんですがRVCで音声を学習する時もものせさんは3時間とかかけてると思いますが自分は40分の音声を学習させようしたら20分ぐらいで終わってしまい学習された音声も少し音声元と似ているだけでそっくりな声は作れないです!
どうすればいいでしょうか?
こんにちは!お使いの環境によっては爆速で終わりますよ(RTX4090などvramが多いGPU)
ちなみに学習の際、エポック数はどのくらいで行っていますか?また、コマンドプロンプトの表示はしっかり指定したエポック数で学習を完了しているかログが残っているので確認してみてください!
モデル推論で動画の通りにしたのにも関わらず変換しようとするとエラーと出て変換されません。
どうすれば良いでしょうか?
RVCを起動した際に黒い画面が一緒に開いていると思います。そこにエラー内容が出ていると思うのですがいかがでしょう??
@@yumeno_momonose返信ありがとうございます。
画面にはAttributeError: 'NoneType' object has no attribute 'dtype'と出ています。
自分でも色々調べてみたのですがよく分からず...
お力添えの程、何卒お願い致します。
@@いちご-j3h9f 変換元の音源のパスが見つからない(間違っている)際に出るエラーのようでした。Cドライブ直下にフォルダを作成(ローマ字)し、そこへ音源を入れてそのパスをコピー、モデル推論で指定するとどうでしょうか??
@@yumeno_momonose返信ありがとうございます。
試してみましたがダメでした...
pthファイル側の音源に問題があるのかと思い、言われた通りにしてみてもダメ、学習元の音源に問題があるのかと思い言われた通りにしてもダメでよく分かりません。
pthファイルはネットにあるものをダウンロードしているのでそちら側にも問題があるのかと思い、以前の動画で使われていた物も使用してみましたがダメでした。
何卒お力添えをお願い致します。
長文失礼しました。
@@いちご-j3h9f pythonのバージョンは何を使っていますか?当方は3.10.10になっています。もしかすると新しいバージョンすぎたりするかもしれません。同じバージョンを試していただいて(他バージョンはアンインストール)みてもよろしいですか?
音痴の自分にAIで歌わせてみたくて助かります。₍さっそくやってちょっと笑いました)
ちなみに自分も花澤さんっぽい声にしたくていろいろやってるけど全然音割れするは機械音っぽいわで声似てないわで全然うまくいかない。
いろいろできて楽しいですよね!
ちょっとしたアドバイスを…
音声を学習するときのコツは
・とにかく声だけで(バックのBGMなどは極力無く)
・無音の時間もノイズになるのでそれもカット
・1つのファイルは長くても15秒程度
・同じ声質の声を最低でも30個程度用意
こんな感じでそれっぽい学習ファイルができますよ!
@@yumeno_momonose ありがとうございます。やってみます
スマホだと出来ませんか?
スマホは対応してないですね💦