【RVC】実際に歌わせてみたを作ってみよう!【AIボイチェン】

Поделиться
HTML-код
  • Опубликовано: 16 ноя 2024

Комментарии • 52

  • @kishiwakitomohide7588
    @kishiwakitomohide7588 Год назад +11

    もしかして、亡くなった人(だけ)で番組作れる時代になったのか?

    • @yumeno_momonose
      @yumeno_momonose  Год назад +7

      可能性はすごーくありそう…

    • @momorinyu
      @momorinyu Месяц назад

      視聴率めっちゃ高そう
      志村けんさんとかみたら泣いちゃう

  • @purunno2NONI
    @purunno2NONI Год назад +7

    過去の動画も含め参考にさせて頂いてやってみました…!
    学習環境は以下で行いました。これから試される方の目安になればと思います。
    CPU:Core i 9-12900KF
    RAM:32GB
    GPU:RTX3080Ti(12GB)
    1時間40分分の音声データ(20秒分割309ファイル)で学習↓
    エポックごとの保存頻度:5
    総エポック数:150
    GPUごとのバッチサイズ:6
    ワンクリックトレーニング完了時間:4時間半
    ※大体1エポックあたり2分前後
    →かなり本家とそっくりな音声ができあがりました!
    今回の動画のテーマでもある歌声用に学習真っ最中ですが…
    2時間分の音声データ(20秒分割396ファイル)で学習
    エポックごとの保存頻度:5
    総エポック数:700
    GPUごとのバッチサイズ:4
    ワンクリックトレーニング完了時間:40時間(推定)
    ※大体1エポックあたり3分半前後
    →楽しみ
    ワンクリックトレーニング中について、CPU使用率は20%を保っている感じで、データ処理と特徴抽出でガッツリ100%張り付きますが、そんなに性能を使っている感じでは無さそうです。RAMは、4〜5GB食うので最低16GBは積んでおかないとキツそうです。
    バッチサイズですが、総エポック数を増やすとバッチサイズを小さくしないと、自分の環境だと何故かエラーで進まなくなります…。(多分VRAMがオーバーフローしてるかも)
    バッチサイズ6で11.2GB、バッチサイズ4で8.9GB使用している様子です。
    VRAMを大量に積んでるグラボを使うと学習効率はかなり上がりそうですね。一般家庭の場合RTX3090や4090など。RTX A6000とか持ってる猛者は…流石にいないか…w)

    • @yumeno_momonose
      @yumeno_momonose  Год назад +2

      有益な情報助かります!!
      さすがにA6000は値段の桁が一つ違いますからねw

  • @きんぐさーもん-j5d
    @きんぐさーもん-j5d Год назад +2

    過去の動画も含め参考にさせてもらいました
    学習に関しては高音、低音を含む音声素材15秒区切りぐらいのを5時間分用意して200エポック、バッチサイズ4でやりましたがいい線行ってましたので参考までに
    結局のところ選ぶ素材と前処理がどれだけ丁寧にできるかなきがします。
    伴奏ボーカルの分離だったりエコー除去についてですがGradioのモデル推論の横のタブを使えばフリーソフトを落とさなくてもできるのでそれを使ったほうが楽かなと思いました

    • @yumeno_momonose
      @yumeno_momonose  Год назад

      こちらこそ参考になります!感謝!

  • @スイカ-1345
    @スイカ-1345 8 месяцев назад

    初めまして! 一つお伺いしたいことがあります。
    RVCで作成した学習済みファイルは、
    「音声から音声に変換する」という場合にしか使用できないのでしょうか?
    「日本語テキストを音声に変換する」という場合にも使用可能なら、
    それもまた便利そうだと思いましたが、解説している動画やサイトが見つかりません…

    • @yumeno_momonose
      @yumeno_momonose  8 месяцев назад +1

      RVCの場合は基本的に音声→音声の変換になります。テキスト→音声の変換であればStyle-Bert-VITS2というものが現状品質、精度ともに一番かと思いますので試してみるといいかもです!

  • @user-Zeroro556
    @user-Zeroro556 Год назад +1

    配布されているモデルを使って行う場合、どのようにすればよいのでしょうか?

    • @yumeno_momonose
      @yumeno_momonose  Год назад

      モデル推論のタブから配布されているpthを選択する感じです。
      動画内でpthを選択してると思うのですが同じように行います

  • @skrindo2339
    @skrindo2339 Год назад +1

    分かりやすい説明ありがとうございます!
    質問なんですが、作成したpthファイルを追加学習させることはできますか?

    • @yumeno_momonose
      @yumeno_momonose  Год назад +1

      すみません、追加の学習は行ったことがないため現状わかりかねます…
      ノイズが入っていたり高音が出せないなど→元データの不出来として新たに作るパターンしか行ってこなかったもので…

    • @skrindo2339
      @skrindo2339 Год назад

      @@yumeno_momonose ご回答ありがとうございます。
      僕もまた新たに作ることにします。

  • @otulu
    @otulu 9 месяцев назад

    学習させた音声フォルダにindexファイルがなく、phtとjsonファイルしかないのですが、作成時になにかミスをしているのか、そもそも作成に成功していないのかわかりません。アドバイスいただければ幸いです!

    • @yumeno_momonose
      @yumeno_momonose  9 месяцев назад +1

      Logsフォルダ内にも生成されていない場合は特徴抽出の時点で失敗している可能性が高いですね…

  • @こぅ
    @こぅ 9 месяцев назад

    特徴検索を使わない場合はlogsを削除しても大丈夫ですか?容量食ってるので

    • @yumeno_momonose
      @yumeno_momonose  9 месяцев назад

      logsフォルダ内に学習時につけた名前のフォルダが生成されていると思います。こちらはすべて削除して大丈夫ですよ!

    • @こぅ
      @こぅ 9 месяцев назад

      @@yumeno_momonose ありがとうございます!

  • @moromox110
    @moromox110 11 месяцев назад

    10秒の音声データを30用意し、250エポックで学習させたものを歌わせると、声は似るのですがガビガビになってしまいました。これはエポック数が足りないことが原因ですかね?

    • @yumeno_momonose
      @yumeno_momonose  11 месяцев назад

      学習回数は250も回していれば十分だと思います…!
      音声素材がよくないとガビリの原因になりやすいです。高音域のカスレなどは学習時に高めの声を入れることである程度は改善されるとは思います…!

    • @moromox110
      @moromox110 11 месяцев назад

      @@yumeno_momonose高音域のかすれがまさにそうでした。音声データがほとんど一定のトーンでしたので、それが原因っぽいですね。ありがとうございます

  • @ウォークマン-x9m
    @ウォークマン-x9m 5 месяцев назад

    質問なのですが、UVRのGPUのチェック部分が黒くなっていて押せません。もしかしてアプデなどでHQ1はGPU非対応になりましたか?

    • @yumeno_momonose
      @yumeno_momonose  5 месяцев назад

      最新版をインストールして確認してみました。
      UVR-MDX-NET Inst HQ1でテストしてみましたが問題なくGPU処理可能でした。
      グラボのドライバを更新すると改善する可能性がありますのでお試しください

    • @ウォークマン-x9m
      @ウォークマン-x9m 2 месяца назад

      @@yumeno_momonose 遅くなりました!そうなんですね……ありがとうございます!

  • @hiraiwa-kana
    @hiraiwa-kana Год назад

    いつも解説動画助かっています...!
    質問なのですが音声を切り抜くUVR5について、ハモリの抜き方を教えていただきたいです。
    ハモリパートになった瞬間、音割れや声が崩れたりでうまくいかなくて...

    • @yumeno_momonose
      @yumeno_momonose  Год назад +1

      こんにちは!実はハモリ部分の処理に関しては永遠の課題だと思っています。UVR5でメインボーカルのみを切り出すモデルもありますのでそちらを使ってみるのもいいかもしれません。(正直あまりうまくいった試しがないのが現状です…)

    • @hiraiwa-kana
      @hiraiwa-kana Год назад +1

      ​@@yumeno_momonose
      MDXのkaraoke2を使ってやってみたのですが、簡単なハモリしか入ってない曲だと安定しました。それでも手を加えないといけないところは1個2個出てきますね、
      抜いたハモリもRVC通して重ねてみて、何言っているかわからないですがまあ試す価値はある程度でした。
      とても助かりました、ありがとうございます!

    • @yumeno_momonose
      @yumeno_momonose  Год назад +1

      @@hiraiwa-kana お疲れ様です!有益な情報助かります!!

  • @ちゃちゃまる-m2u
    @ちゃちゃまる-m2u 11 месяцев назад

    歌わせたとき、声を伸ばすところあガビガビになってしまうのですが、どうしたらいいですか?

    • @yumeno_momonose
      @yumeno_momonose  11 месяцев назад

      ガビるのは主に高音域ですかね??
      使用しているモデルの音域が足りないとそのようになりやすいです…

  • @大塚凌-v3l
    @大塚凌-v3l Год назад

    いつも動画投稿ありがとうございます!
    質問なんですがRVCで音声を学習する時もものせさんは3時間とかかけてると思いますが自分は40分の音声を学習させようしたら20分ぐらいで終わってしまい学習された音声も少し音声元と似ているだけでそっくりな声は作れないです!
    どうすればいいでしょうか?

    • @yumeno_momonose
      @yumeno_momonose  Год назад

      こんにちは!お使いの環境によっては爆速で終わりますよ(RTX4090などvramが多いGPU)
      ちなみに学習の際、エポック数はどのくらいで行っていますか?また、コマンドプロンプトの表示はしっかり指定したエポック数で学習を完了しているかログが残っているので確認してみてください!

  • @いちご-j3h9f
    @いちご-j3h9f Год назад

    モデル推論で動画の通りにしたのにも関わらず変換しようとするとエラーと出て変換されません。
    どうすれば良いでしょうか?

    • @yumeno_momonose
      @yumeno_momonose  Год назад

      RVCを起動した際に黒い画面が一緒に開いていると思います。そこにエラー内容が出ていると思うのですがいかがでしょう??

    • @いちご-j3h9f
      @いちご-j3h9f Год назад

      ⁠@@yumeno_momonose返信ありがとうございます。
      画面にはAttributeError: 'NoneType' object has no attribute 'dtype'と出ています。
      自分でも色々調べてみたのですがよく分からず...
      お力添えの程、何卒お願い致します。

    • @yumeno_momonose
      @yumeno_momonose  Год назад

      @@いちご-j3h9f 変換元の音源のパスが見つからない(間違っている)際に出るエラーのようでした。Cドライブ直下にフォルダを作成(ローマ字)し、そこへ音源を入れてそのパスをコピー、モデル推論で指定するとどうでしょうか??

    • @いちご-j3h9f
      @いちご-j3h9f Год назад

      ⁠@@yumeno_momonose返信ありがとうございます。
      試してみましたがダメでした...
      pthファイル側の音源に問題があるのかと思い、言われた通りにしてみてもダメ、学習元の音源に問題があるのかと思い言われた通りにしてもダメでよく分かりません。
      pthファイルはネットにあるものをダウンロードしているのでそちら側にも問題があるのかと思い、以前の動画で使われていた物も使用してみましたがダメでした。
      何卒お力添えをお願い致します。
      長文失礼しました。

    • @yumeno_momonose
      @yumeno_momonose  Год назад

      @@いちご-j3h9f pythonのバージョンは何を使っていますか?当方は3.10.10になっています。もしかすると新しいバージョンすぎたりするかもしれません。同じバージョンを試していただいて(他バージョンはアンインストール)みてもよろしいですか?

  • @真奥貞夫-e5x
    @真奥貞夫-e5x Год назад

    音痴の自分にAIで歌わせてみたくて助かります。₍さっそくやってちょっと笑いました)
    ちなみに自分も花澤さんっぽい声にしたくていろいろやってるけど全然音割れするは機械音っぽいわで声似てないわで全然うまくいかない。

    • @yumeno_momonose
      @yumeno_momonose  Год назад +4

      いろいろできて楽しいですよね!
      ちょっとしたアドバイスを…
      音声を学習するときのコツは
      ・とにかく声だけで(バックのBGMなどは極力無く)
      ・無音の時間もノイズになるのでそれもカット
      ・1つのファイルは長くても15秒程度
      ・同じ声質の声を最低でも30個程度用意
      こんな感じでそれっぽい学習ファイルができますよ!

    • @真奥貞夫-e5x
      @真奥貞夫-e5x Год назад

      @@yumeno_momonose ありがとうございます。やってみます

  • @nanashi087
    @nanashi087 4 месяца назад

    スマホだと出来ませんか?

    • @yumeno_momonose
      @yumeno_momonose  4 месяца назад +1

      スマホは対応してないですね💦