【RVC】初心者の方向けにRVCの導入からモデルが出来るまで全部解説してみたよ【AIボイチェン】

もものせ

Просмотров 67 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 5 окт 2024
RVCの導入→素材の用意→学習までワンセットで解説しています
解らなければコメントへ(わかる範囲でお答えします…)
VC Clientで女の子になろう！(ローカル環境)
• 【AIボイチェン】VC Clientで女の子...
歌わせてみよう
• 【RVC】実際に歌わせてみたを作ってみよう！...
・python
www.python.org...
・7zip
7-zip.opensour...
・RVC Web UI
huggingface.co...
・RUclips→MP3
www.y2mate.com...
(広告注意)
→Any Video Converterが楽。ダウンロードからWAV変換がこのソフトでできる無料です。
www.any-video-...
Audacity
www.audacityte...
もものせTwitter
/ yumeno_momonose
イラストレータ
ねいろ様
モデリング
おかだ様
Игры

Комментарии • 512

@kazuhide1970 6 месяцев назад ⁺¹⁹
00:00 開始
00:35 python 7zip 導入
03:38 RVC 導入
08:07 Audacity 導入
09:08 学習素材収集
12:56 学習素材編集
19:00 学習
@hopehopehopehope 5 месяцев назад ⁺⁶
もものせさんの最初の動画のおかげでRVCにはまり、気付いたら30人以上の学習データを作成していました。
クオリティに関しても文句のない出来で、本当に参考になりました。
音声データ探しがどうしてもネックですが、やっていて楽しいので本当に感謝してます。
@yumeno_momonose 5 месяцев назад
コメントありがとうございます！
めっちゃ楽しまれてますね！解説動画出してみてよかったです
音声素材の入手が一番大変ですもんねー…
@美咲奏 7 месяцев назад ⁺¹²
欲しい時に欲しい情報が上がってる。不思議なチャンネル。
@まぐ猫-y6c 7 месяцев назад ⁺¹⁵
BGMで解説が入ってこないけどこれがこのチャンネルの特徴
@poker_tag Месяц назад
Pappa Parappa 無限耐久
@tkhm5274 7 месяцев назад ⁺⁴
動画のおかげでRVCモデル作成することができました…！感謝です…！
使用素材的に200や600回が良いかと試したところ、3時間や6時間かかって驚きましたね…。
どの学習回数が良いのか知るために試行錯誤するのが大変…！
@yumeno_momonose 7 месяцев назад ⁺²
ご視聴感謝☆完成おめでとうございます🎉
声質によっても違ったりすますが、何回もやってるとある程度感覚がわかってきますよ…！
@tkhm5274 7 месяцев назад ⁺¹
ちょうど導入、確認している際に最新の動画が投稿されていた！解説ありがとうございます…！
@yumeno_momonose 7 месяцев назад
タイミングばっちりでしたね！ぜひ頑張ってみてください☆
@qpdbgq9669 29 дней назад
すばらしい！　ずっとトレーニングがエラーばかりでうまくいかなかったのですが、
もものせさんの動画のおかげで学習成功しました！　マジ感謝！
ファイル名ローマ字表記と５分単位切り分けとフォルダのpath指定、ここがポイントでした
@顎-f8d 7 месяцев назад ⁺¹
毎回わかりやすい解説助かる
@yumeno_momonose 7 месяцев назад
見てくれて助かるです(*'ω'*)
@abnorok 7 месяцев назад
AI学習関連で一番わかりやすくてかなりお世話になってます🙇‍♀️
人力ボカロ作る時にアニメから50音抽出するんじゃなくてAIに学習させて50音採取するっていうズルしてます…
@yumeno_momonose 7 месяцев назад
ありがとうございます(*'ω'*)
AIはうまく使えばとっても便利なものなのでとってもいい使い方だとおもいますよ☆
@gこめっち 7 месяцев назад ⁺³
めっちゃ詳しい解説お疲れさまでした！
凄い！今までのアップデート集大成、「これさえ見ればRVCはOK！」の決定版みたいな感じですね(^^)
何度も見返して勉強させていただきますね！
@yumeno_momonose 7 месяцев назад
ありがとうございます☆
@K李白 3 месяца назад
凄いわかりやすかったので、可能であれば過去の学習モデルで推論する方法も動画にぜひまとめてほしいです！
@yumeno_momonose 3 месяца назад ⁺¹
ありがとうございます！
近く動画をつくりますね！
@ひゅー-t6n 2 часа назад
質問なんですけど、RVCを導入する時に、下のスペックのPCだといくつか種類があるうち（4:18のところ）でどれをダウンロードすればいいですか？
@backrooms_official 7 месяцев назад ⁺¹
みないうちに超自然だこれもうわかんないな
@Ligrasu 12 дней назад
コメント失礼します。
もものせさんは4070を推奨しておりますが、3060 12GB や4060ti 16GB等でも大丈夫でしょうか？学習に時間がかかるのみでAIカバーなどを作る際に歌わせた際にラグが発生したり、AI感が強かったり等の品質には異常はないのでしょうか？
@yumeno_momonose 11 дней назад ⁺¹
学習は強いグラボほど時間が短縮できるため4070以上を推奨していますがカバーやリアルタイム変換では下位のグラボでも大丈夫ですよ！品質も変わりません
@ツチノコ-o2j 6 месяцев назад ⁺⁶
amd版をダウンロードしたのですが、解凍したファイルの中にgo-webがありません😢
@yumeno_momonose 6 месяцев назад ⁺⁵
すみません当方の検証環境にAMDの機材がないため確認に少しお時間をいただいてもよろしいでしょうか？
また使用しているグラボをお教えいただけると助かります…！
@ツチノコ-o2j 6 месяцев назад
@@yumeno_momonose
使っているのはrx6600xtです。
よろしくお願いします。
@KAEDE_03 6 месяцев назад ⁺¹
同じく！！！！！
@KAEDE_03 6 месяцев назад ⁺³
@@yumeno_momonose 　こんにちは。自分もAMD構成ですがgo-webがありませんでした。個人で調べたところAMD製のグラボではできないとの情報がありました。
AMD製グラボでRVCを使用するならばコードを書き直しするとか書かれていました。
自分の構成は以下の通りです。
GPU→Radeon RX6700XT
CPU→AMD Ryzen5 5600X
になります。最初のコメ主様がもものせ様に返信されていなかったので変わりに送らせて頂きます。
@ツチノコ-o2j 6 месяцев назад
@@yumeno_momonose
返信遅くなりました。
私のグラボはrx6600xtです！
@黄金の回転-d2g 7 месяцев назад
喋ってる途中で切れるかもしれないですが、Audacityのツールから等間隔ラベルで秒数を設定して、エクスポート時にラベルを選択すれば一気に分割保存できますよ！
@yumeno_momonose 7 месяцев назад
その方法のほうが本当は楽なんですよね！なんとなく途中で声がぶつ切りになるのが気になってしまって💦
@ベルくう-k1r 7 месяцев назад ⁺¹
もものせさんの動画を見て最後まで作ることが出来ました！無知な私で申し訳ないのですがこの後は何をすればボイスチェンジ出来ますか？動画などがあれば教えて欲しいです！
@yumeno_momonose 7 месяцев назад ⁺¹
VC Clientで女の子になろう！2023.8月版というのが参考になると思います…！
@ベルくう-k1r 7 месяцев назад
@@yumeno_momonose ありがとうございます！
@シュア-d3r 7 месяцев назад ⁺⁴
スムーズに動くスペックってどのくらいでしょうか？
使ってる環境お聴きしたいです！
@yumeno_momonose 7 месяцев назад ⁺¹
学習させるならVRAM12GBくらいあるグラボだといい感じです！
今はメインパソコンが壊れてしまっているのでサブPCですが
ryzen7 1700
RAM16GB
RTX4090
といった構成です！
@シュア-d3r 7 месяцев назад ⁺¹
ありがとうございます！
調べてみます！
@rekireki4503 2 месяца назад
大変わかりやすい解説助かります。
私も興味をもってRVCに手を出してみました。
そこで質問なのですが、勢い余って５分の素材を３０個作ってしまったのですが多すぎるでしょうか？
また、この素材の数で学習させる場合、エポック数はどれぐらいが良いでしょうか？
回答いただけると幸いです。
@yumeno_momonose 2 месяца назад
少し多い気もしますが、問題ない程度かと思います。
素材が多いとその分学習に時間がかかりますが、当方であれば200エポック程度でまずは回してみますね…！
@ゆっくりしてな Месяц назад
最新バージョンわからないですね💦
いろいろ操作方法もかわってくるし最新バージョンの解説
待ってます！
@yumeno_momonose Месяц назад
そろそろ情報が古くなってきましたね💦
近く更新情報を動画にしますね！
@ああ-w2b5r 7 месяцев назад
わかりやすい動画ありがとうございます
この動画の作業が終わった後の手順って概要欄の動画に続いていくかんじですかね？
あと2人以上の素材を組み合わせるのって可能なんですかね？
@yumeno_momonose 7 месяцев назад ⁺¹
ご視聴ありがとうございます！
この動画で完成した音声モデルを使って概要欄にあるVC Clientで女の子になろうの動画で解説しているソフトでリアルタイムボイチェンジが可能になります…！学習時にAの声とBの声を混ぜるとあまりよくないと思います…AとBを別々に学習させて混ぜる(mergeといいます)ことは可能ですよー！
@omoti-e4l 26 дней назад
もものせさんご丁寧な解説動画ありがとうございます。
早速質問なのですが、7zipをダウンロードしても開くことができません。なぜなのでしょうか。対応の仕方があれば教えていただけると幸いです。
@yumeno_momonose 26 дней назад
ご視聴ありがとうございます！windows11 22H2より標準で解凍可能となりましたが、7zipでの解凍を行うとどのような状態になりますか？何かエラー表記が出るなど
@テステス-v5c 3 месяца назад
この動画の通りもものせさんのテスト配信で学習してみました。VCを起動するともものせさんの声になったのですが話しているとうっすらBGMが聞こえてしまいます。実際に使う場合はbgmなしの動画で素材を調達した方がよいですか？また、完全オリジナルの音源を作る際にはどのように学習するべきでしょうか？様々な人の音源を混ぜたりしたらよいでしょうか？よろしくお願いします。
@yumeno_momonose 3 месяца назад
基本的に学習に使う音声データはBGMやSEがないものを使うのがよろしいと思います！
オリジナルを作るのであれば学習時に混ぜるのではなく完成したpthファイルをマージする方法で混ぜる方が簡単ですよ！
@テステス-v5c 3 месяца назад
@@yumeno_momonose なるほど！
ありがとうございます
@Usisaikou 2 месяца назад
コメント失礼します！質問なのですが、声の精度を上げるには5分ほどに切り分けた素材は多ければ多いほどいいですよね？
@yumeno_momonose 2 месяца назад
あまり多いと学習に失敗したりするので1時間分くらいがちょうどいいと思いますよ！
@TarumiYoina 7 месяцев назад
いつも有益な情報をありがとうございます。
自分でモデルを作るメリットとしては、好みの声にできること以外に何があるでしょうか？
@yumeno_momonose 7 месяцев назад ⁺¹
ご視聴ありがとうございます☆
自分で好みのものを作れる、販売や配布物では品質に満足できない場合、いろいろと素材を追加したり変えたりして作れることが大きいと思います…！
@けけ-c4i 6 месяцев назад
勉強になりました！別言語の声を素材にすると変になるのでしょうか？？
@yumeno_momonose 6 месяцев назад
できないことはないですが、若干活舌が甘くなりがちですね…
@shirossshiro9786 25 дней назад
コメント失礼します！他の方へのグラボについてのコメントでもものせ様はRTX4070を推奨されてますが、RTX3060もしくは3070でも問題なくできそうでしょうか？
@yumeno_momonose 25 дней назад ⁺¹
大丈夫ですよ！ただし4000系に比べると学習速度は劣ります
@shirossshiro9786 24 дня назад
@@yumeno_momonose ありがとうございます！
@abccca12 2 месяца назад
GTX 1050 を使用しておりますが、学習速度の遅さに限界を感じ、買い替えを検討しております！もものせさんが使用しているグラボでは、1時間の音源データを5エポックほど回した時どれくらいの時間を要しますか？
私の環境では5時間でした、、ので買い替えで速度向上がどれほど期待出来るのか教えていただけると幸いです！
@yumeno_momonose 2 месяца назад ⁺¹
1050ではさすがに厳しいですね💦
4090では1時間データ5エポックだと3分くらいです！4070tiで6～7分程度です！
VRAM量で大幅に学習速度が変わりますので現行世代だと最低でも12GBクラス(RTX4070～)をおすすめいたします
@abccca12 2 месяца назад
@@yumeno_momonose
ご返信いただきありがとうございます！なんとお速い...さすが最強スペックですね...。目安時間やおすすめグラボについて大変参考になりました！これからも動画楽しみにしております！
@黒の剣士-q2t 9 дней назад ⁺¹
無音を切り詰めるってとこ行ったら急にフリーズするんですけど、グラボの問題ですかね。RTX3060です
@yumeno_momonose 9 дней назад ⁺¹
無音の切り詰めはCPUでの処理なのでグラボは関係ないと思われます
Audacityの再インストールをお試しください
@黒の剣士-q2t 9 дней назад
@@yumeno_momonose できました。ありがとうございます
@ろっきー-s8g 2 месяца назад
配信とかで大きな声とか叫び声などが混じっている場合は無くした方が品質安定しますか？
@yumeno_momonose 2 месяца назад
音割れするレベルの大きな声や叫び声は削除したほうがいいですね
@ぬぬ-e5l 3 месяца назад
コメント失礼します！学習に使う際の音源をスマホで作成し、Googleドライブを通じて使うことは可能でしょうか…？
@yumeno_momonose 3 месяца назад
googleドライブを通してPCにデータを移行してということですかね？？
@afragile7152 3 месяца назад ⁺¹
毎晩寝る前にやってるんですが、満足のいくモデルが全然できません…。合計約27分無音部分カット済みのデータなら何エポック回せばいいと思いますか？音声データはゲームのデータから抜いてるので品質に問題ないです。
@yumeno_momonose 3 месяца назад
合計27分のデータとのことで少々不足気味な印象を受けます。
個人的な見解ですが45～50分程度は欲しいところです。また、ゲームから抜き出した音声データとのことですがすべて聞いてみて聞こえ方が違うもの(収録スタジオの違いやマイクの違い)は混ざっていませんでしたか？
@afragile7152 3 месяца назад
@@yumeno_momonose
回答ありがとうございます！取れるボイスデータが少なくて激しい演じ方のやつとかも混じってたのでそれかもです…。ちなみに約1時間のデータであれば目安は何エポックほどでしょうか？
@yumeno_momonose 3 месяца назад
なるべく同じように聞こえる音声を学習させる方がよいと思います(こもっているように聞こえるものなどはNG)
1時間程度の素材であれば200～250エポック程度回すとよろしいかと思います
@afragile7152 3 месяца назад
@@yumeno_momonose
もうちょっと素材集め頑張ってみます。回答ありがとうございます！
@轟-c8z Месяц назад
ちょっとわからなかったので質問失礼します。
動画上で説明されていたらすみません。
用意する音声データについてお聞きしたいのですが、どれぐらいの長さ（動画では5分程度）の物をどれぐらいの数用意すればいいのでしょうか？
@yumeno_momonose Месяц назад ⁺¹
5分程度のデータを10～12個程度用意するようにしていますね！
@轟-c8z Месяц назад
お答えいただきありがとうございます。
参考にさせていただきますね。
@하지만-u5b 7 месяцев назад
失礼な日本語だったらごめんなさい。
uvr5を使用することは多くないですか？品質が下がりますか？
それと元の素材がどれぐらいの時間あればよいですか？
5分のファイルが何戸で品質が良くなりますか？
動画の説明の中で説明していたらごめんなさい。
@yumeno_momonose 7 месяцев назад ⁺¹
大丈夫ですよ！
どうしても品質が落ちやすいので基本的にUVR5は使わないですね。
元々音声にBGMやSEがないものを使った方が品質は圧倒的に高いです！
5分の音声を8～10個くらい用意するのがいいと思います！学習品質は元の音声の品質が良ければ良いほど高くなります。(日本語でのご質問ありがとうございます(*'ω'*))
@Chill_Vibes_Playlist 7 месяцев назад
女の子の声かわいいですね😋つい吹き出してしまいました。早速ですが、学習終了したのですが（ちなみに150回学習で12時間かかりました😱）pthファイルはできてたのですがindexファイルが見つかりません。この場合どのように対処したらよろしいでしょうか？😢
@yumeno_momonose 7 месяцев назад
ありがとうございます(*'ω'*)
indexが生成されない場合は同じ学習名、パス、設定値でデータ処理→特徴抽出→特徴インデックスのトレーニングを行えば再生成されると思いますよ！
@Chill_Vibes_Playlist 7 месяцев назад
@@yumeno_momonose 早速の対応ありがとうございます。できましたありがとうございました。
@ドラ-p8n 6 месяцев назад
久しぶりに見たら、バージョン2.0になってるんですね
去年の11月頃に使ってた（多分v1.6頃）のですが
2.0になって結構変わってますか？
@yumeno_momonose 6 месяцев назад ⁺¹
声以外の音(環境音やキーボードの打音)、誤変換には強くなりましたよ！
@s-lp9wg 4 месяца назад
コメント失礼します。
小音でもbgmが入ってしまうと、学習結果に影響を及ぼしますか？
@yumeno_momonose 4 месяца назад
それなりに品質に影響します。人間が聞いてわかるレベルですと品質は大きく低下するイメージです
@坂崎ケンコ 3 месяца назад
学習時に、変換元の入力値（＝自分自身の声）をパラメータとして与えるようなことはしないのでしょうか？
音声が同じ学習元のモデルでも、発声者によって出力される声が変わるのではないかと思うのですが
より最適なモデルづくりには自分の声も１つのパラメータとして与える必要はないの？と思ってしまいました。
@yumeno_momonose 3 месяца назад ⁺¹
RVCに関しては不要かと思います。
一緒に地声を学習させると変換できるピッチを越えた時に地声がそのまま出力されたとの報告もありました。
@Annykig 7 месяцев назад ⁺¹
頑張った👍
@yumeno_momonose 7 месяцев назад ⁺¹
疲れ申した('ω')笑
@赫音まほろ 6 месяцев назад
わかりやすい動画をありがとうございました。
途中で詰まってしまい、お聞きしたいことがあります。わかる範囲でお答えいただけますと幸いです。
ワンクリックトレーニング実行後、cmd上で下記エラーが表示されました。
WebUI上では「全工程が完了」と出ていますが、pthファイルが作られておらず、indexファイルのみ作られています。
epoc1, 2...と学習が進んでいなかったので、失敗していそうです。
これが原因かな？と思うところがあるのですが、現在、「GTX 1650」を使用しており、VRAM4GBと、他の方のコメントを見る限り性能不足かと思います。
今回は、性能不足を承知のうえ、お試しとして全体的に少ない値を設定しながら、最後までいけるかやってみようと思っていたのですが、そもそもグラボの性能を上げないと難しいでしょうか？
近いうちに、RTX4070あたりのグラボが搭載されたpcの購入を検討していますが、グラボの変更によって解決する（現状のグラボでは解決できない）エラーでしょうか？
ハードウェアの知識が足りず、基礎的な質問でしたらすみません(-_-;)
【エラー内容】
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 3.42 GiB already allocated; 0 bytes free; 3.44 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
@yumeno_momonose 6 месяцев назад ⁺¹
ご視聴ありがとうございます！
VRAM不足(GPUメモリ)によって学習ができませんというエラーですね…
学習をするのであれば8GB程度のVRAMがないと厳しいです。
(もしかすると学習時のバッチサイズを一番小さくするといけるかも…？)
VRAM8GB以上かつNvidiaのグラフィックボードを選定していただけると改善するエラーですね
@赫音まほろ 6 месяцев назад
@@yumeno_momonose
ご回答いただきありがとうございます🙇‍♂️
バッチサイズ2で試したので、1でもやってみようと思います。
新pcを購入しようと思うので、改めてそちらでやってみます！
@natu773fps Месяц назад
紹介されてるもものせさんのアーカイブだとBGMが少し入ってますが、これはそのまま学習させても大丈夫なんでしょうか！
@yumeno_momonose Месяц назад
BGMは品質が大きく劣るので映画やアニメの同時視聴を行っている方の配信などはBGMがないのでそういったところを探すといいと思います💦
@natu773fps Месяц назад
@@yumeno_momonose ありがとうございます！BGMのない素材を探してみます〜！
@natu773fps 29 дней назад
@@yumeno_momonose その後動画の通り学習させてみたらとっても良いものが出来ました！！ありがとうございます！
@dayo2676 5 месяцев назад
コメント失礼します。
声がコンプレックスで使ってみようと思ったのですが、５GBのファイルをダウンロードすると容量オーバーになってしまいました。
使うにはマイクロソフトのサブスクリプションに加入するしかないのでしょうか？
@yumeno_momonose 5 месяцев назад
モデルの作成には最低15GB程度(RVC本体を含め)必要ですね💦
不要なゲームデータなどがあれば削除して容量を空けるなどするかローカルでの学習ではなくGoogleコラボラトリーでの学習を視野に入れるといいと思います…！
@カルビ-h2l 4 месяца назад
コメント失礼します！Audacityにて学習音声を出力する前にノーマライズ処理は必要でしょうか？昔どこかでやった方がいいと聞きまして...
@yumeno_momonose 4 месяца назад ⁺¹
特に違いは感じないので不要かな？とおもいます…
@カルビ-h2l 4 месяца назад
@@yumeno_momonose ありがとうございます！重ねて質問申し訳ないですが、学習音声のサンプリング周波数は目標サンプリングレートに合わせなくても問題はないのでしょうか？(44100Hzの素材をわざわざ40kや48kに出力する必要はないのでしょうか？)
@yumeno_momonose 4 месяца назад
素材のサンプリングレートはそのままで問題ないですよ！
特に変更して書き出す必要はないと思っています…！
@めう-l2t 6 месяцев назад
何回か作ってみたのですが、思い通りの声になりません、、
30秒～1分ほどの音声素材を50個ほど学習させていたのですが、もしかしたら音声素材の時間は長い方が良い等ありますか？
@yumeno_momonose 6 месяцев назад ⁺²
遅くなってすみません💦
まず、元素材の品質がかなり影響いたします。同じ人物の声だとしても配信や動画をまたぐと収録環境が変わっていたりして聞こえ方が違ってくるものがあると思いますがそういったものを混ぜるのは品質の低下につながります。可能であれば同じ配信などから合計1時間分くらいを抜き出すのがよろしいかと思います。また最近は5分程度の音声を12個学習するようにしていますね！
@lightrong 7 месяцев назад
解説動画をつくる人はどうやって解説できるだけの情報を持っているのか
@プクリン-l3r 5 месяцев назад
はじめまして。よろしければご回答いただければ幸いです。
最後のワンクリックトレーニング前までは順調なのですが、そこを押すとしばらくしてエラーが出ます。
CUDA out of memoryというのがコマンドに出ます。これってGPUの容量が足りてないのでしょうか？
私のGPUはGeForceGTX 1660で容量は6GBです。
GPUごとのバッチサイズを最小の1にしてみたりするのですが上手くいきません。解決策をお知りでしたらアドバイス頂ければ幸いです。
@yumeno_momonose 5 месяцев назад
VRAM不足エラー(GPUメモリ)ですね…💦
バッチサイズを最小まで小さくしてもエラーになる場合は素材データが多すぎる可能性があります。
バッチ1でギリギリ回せる量まで減らすしかないと思われます…
@プクリン-l3r 5 месяцев назад
@@yumeno_momonose ありがとうございます。素材数減らしてみます
@Andy_RX-7 2 месяца назад
初めまして、コメント失礼します。
質問なのですが、indexファイルはあるのですがpthファイルがないです。どうしたらいいでしょうか？
黒い画面の方にはepoc1 ～とちゃんと表示されていました。
素材が５分×１７個作っていたので多すぎでしたかね...？
５か月前の動画に申し訳ないですが回答よろしくお願いします。
@yumeno_momonose 2 месяца назад
学習は進んでいたようですね💦
最終epocの後にfinal check～というような表記は出ていましたか？
途中で学習が止まってしまっている気がします
@Andy_RX-7 2 месяца назад
@@yumeno_momonose
たしかに途中で止まっていたかもしれないです...
@yumeno_momonose 2 месяца назад
次回学習を試す場合はブラウザ側で完了表記が出ていてもcmd(黒い画面)で指定したepoc数まで学習が完了しているか確認するといいかもですね…！
@Andy_RX-7 2 месяца назад
なるほどです、
ありがとうございます！
@wlooo_r Месяц назад ⁺¹
intel版でダウンロードしたんですけど自分のPCにgowebがでてこないんです😿何か方法ありますか！
@yumeno_momonose Месяц назад ⁺¹
windowsでの学習はNvidia系GPU 以外はできないのです…Linux系では他GPUでも可能なのですが…
どうしても学習が必要な場合は課金が必要ですがGoogle Colabなどの外部サービスの利用を検討してみてください
@wlooo_r Месяц назад
@@yumeno_momonose そーなんですね！丁寧にありがとうございます！
@singer-q3z 25 дней назад
コメント失礼します。
わかりやすい解説動画ありがとうございます。
ASUS エイスースノートパソコン Vivobook Pro 15 K6502HE 15.6型/ intel Core i9/ GeForce RTX 3050Ti/Windows11
を使っているのですが、試しに「GPUごとのバッチサイズ」を2にしたところ、学習の際に
CUDA out of memory
というエラーが表示されました。
何か解決策はございますでしょうか。
@yumeno_momonose 25 дней назад
3050tiは専用ビデオメモリ(vram)が4GBのためメモリ不足のエラーです。バッチサイズ1ならギリギリ学習できるかもしれません
@singer-q3z 24 дня назад
返信ありがとうございます。
VRAM不足だったんですね。
GPUごとのバッチサイズにもよると思いますが、どのくらいのVRAMがあれば、学習可能でしょうか。
答えづらい質問ですみません。
@yumeno_momonose 24 дня назад
@@singer-q3z 学習自体は8GBあれば可能ですが、12～16GB程度あれば余裕をもって学習ができますね！
@singer-q3z 22 дня назад
返信ありがとうございます。
新しいパソコンを買うかどうか、検討します。
@Nina-t2n4x 7 месяцев назад
これ学習素材なんですけど
しゃべってる音声と歌声両方あると歌を歌わせる目的ならいいとかありますか？
@yumeno_momonose 7 месяцев назад
歌わせる場合でもしゃべっている音声があればいいですよ…！
@yumeno_momonose 7 месяцев назад
最低30分くらいはほしいかな？といった感じですね💦
@burinuriunkoman 6 месяцев назад
ワンクリックトレーニングで毎回エラー吐いて出力できません。どうしたらよいでしょうか？
途中に日本語のフォルダやファイルは無いです。
追記「ValueError: 40000 SR doesn't match target 48000 SR」と最後出て進めません
追追記色々試したら成功しました！まだ試行錯誤してみます！
@AAAAA-kh3pg 6 месяцев назад ⁺¹
go-webを開いた後にエラー、指定されたモジュールが見つかりませんと出てくるのですがどうすればいいのでしょうか
@yumeno_momonose 6 месяцев назад
グラボのドライバが古い可能性ありです…
更新後、改善するか試してみてください！
@ajg5sj 4 месяца назад
学習用の素材データーの動画時間はどのくらいが理想なのでしょうか？
@yumeno_momonose 4 месяца назад
無音部分を除いて40～50分程度は欲しいかな？といったところですね…！
@singer-q3z 14 дней назад
すみません、コメント失礼します。
ファイル数287、サイズが389MBのデータを学習させたところ、
RuntimeError: The expanded size of the tensor (17280) must match the existing size (6166) at non-singleton dimension 1 Target sizes: [1, 17280]. Tensor sizes: [6166]
とエラーが表示されました。
何か解決策はございますでしょうか。
@yumeno_momonose 14 дней назад
おそらくですが素材数が多すぎるんだと思います
ファイル数287個で合計の分数はどの程度でしょうか？
@singer-q3z 14 дней назад
返信ありがとうございます。
38分30秒です。
1ファイル20秒のものあるのですが、短く分けた方が良いでしょうか？
@yumeno_momonose 13 дней назад
逆に細かすぎると思います
1つのファイルが5分くらいになるようにつなげて学習させてみて改善するか試すといいかもしれません
面倒であればまずは今ある素材を10個程度適当に見繕って学習が進むかチェックですね！
@ムニエル-u4d 7 месяцев назад
5分の素材を50分用意するのと
1文ずつ数秒で分けたものを50分用意するのは
どちらの方が品質が良くなるかわかりますか？
@yumeno_momonose 7 месяцев назад
個人的には5分くらいの素材を複数のほうが安定した品質を出しやすい気がします…！
@killing0627 2 месяца назад
コメント失礼致します。
2点質問させていただきたいのですが、
1つ目が、文字と文字の間の不自然な声の出し方をもものせさんのように、自然にするコツはありますか？
自分の素材は1〜2時間の音声データ（BGMをUVR5で消したもの）を5分毎に分割したものを使って総エポック数150ほどで回しております。
2つ目は出来上がった学習ファイルを再度トレーニングにて追加学習することは可能でしょうか？
Google版の方で追加学習されていた方がいらっしゃったのですが、assetのデータを参照して新しいwavファイルを読み込ませて学習したりできるのでしょうか…
長文失礼いたしました。
お返事いただければ幸いです。
@killing0627 2 месяца назад
２つ目の質問に関しましては
・今まで通りに追加教育したい音声素材を準備
・logsフォルダの中のGモデルDモデルのパスを一番下の左の欄に入力
・モデルのトレーニングで実施できそうなので、今度試してみようと思います。
@yumeno_momonose 2 месяца назад ⁺¹
遅くなり失礼いたしました💦
変換後の音声に違和感が出るのは学習に使用した素材が影響していることが多いです。(今回であればUVR5でBGMを処理していること)元からBGMなどがない素材に比べるとクオリティは数段落ちてしまいます。
追加学習に関してはその認識で間違いないですね！
@killing0627 2 месяца назад
@@yumeno_momonose
ご回答ありがとうございます。
やはり素材の違いでしたか…
今度はBGM無しの素材で作ってみたいと思います。
ありがとうございますj！！
追加学習の件なのですが、GもDもモデルのタイトルの数字が大きいものとそうでないものでは、試行回数が違うということでしょうか？
そのため一番大きい数字のモデルを二つ使えばよろしいでしょうか？
@yumeno_momonose 2 месяца назад
途中学習ファイルらしいので基本は一番大きい数字のものを使えばいいと考えてますね…！
@Ryuca-jp 6 месяцев назад
PCはnVidiaのグラボ積んでないので(Ryzen7オンボード)intelAMDになりますか?
@yumeno_momonose 6 месяцев назад ⁺¹
オンボードグラフィックで学習は現状不可能です…
@iiiiii2401 5 месяцев назад
初コメ失礼します、動画とあまり関係ない質問ですみません。ruclips.net/video/DSx2UJqP0mM/видео.htmlsi=tWV5Ubd8QqBSVUH0
こちらの動画で使用されていた百鬼あやめさんの声は、どこかで購入されたものですか？それともこの動画のように学習されたものでしょうか？
またVC clientに最初から入っているデータでボイチェンしてみたのですが、自分の滑舌とかのせいなのか言葉の最後の音にノイズが入ってしまうことが多かったです。何か解決策があれば教えていただきたいです。
@yumeno_momonose 5 месяцев назад
ボイスモデルは当方で作成したものになります…！
もとから入っているものはあまり良いイメージがないですね💦NvidiaBroadCastなどのノイズ制御ソフトを試してみるといいかもです
@iiiiii2401 5 месяцев назад
@@yumeno_momonose 返信ありがとうございます！この動画を参考に学習もやってみます。またわからないことがあったら質問するかもです…
@ねこじゃない-c2q 3 месяца назад
今更ながら質問失礼します。RVC WebUIのステップ２でno-feature-todoと表示されてしまうのですがどうしたら良いですか？ステップ１は問題なく通過しているのですが...
@yumeno_momonose 3 месяца назад
エラー内容的にパスやファイルに日本語やスペースが含まれている気がするのですがいかがでしょうか？
@shiroro_kuroro 2 месяца назад
学習させた際のデータ圧迫が厳しいのですが、モデル作成後節約のために消去できるデータってありますでしょうか。
@yumeno_momonose 2 месяца назад ⁺¹
logs→学習した名前のフォルダはindexデータを取り出した後であればフォルダごと削除してしまってOKですよ！
@いぬ-l6y 2 месяца назад
質問失礼します！
VC Cliantでボイチェンした際に２秒ほど声にラグが起きてしまうのですがこれくらいは仕方ないですか？VC Cliantのバージョンは1.5.3.18aを使っています。
@yumeno_momonose 2 месяца назад
CHUNK値によってはそれくらい遅延してしまいますね💦
VCC自体にそれなりの遅延があります
@いぬ-l6y 2 месяца назад
@@yumeno_momonose 返信ありがとうございます！CHUNK値少しいじってみます。動画めっちゃわかりやすくて助かりました！
@totomaru3 2 месяца назад
学習用の音源を歌から調達すると、しゃべり声への変換が自然じゃなくなったりしますか？
@yumeno_momonose 2 месяца назад ⁺¹
ちょっと厳しい気がします💦
なるべくしゃべり声からの学習を推奨しますね…！
@totomaru3 2 месяца назад
分かりました！ありがとうございます！
@pi_pipi314 2 месяца назад
質問失礼します。最後のワンクリックトレーニングの段階で、"RuntimeError: The expanded size of the tensor (17280) must match the existing size (2640) at non-singleton dimension 1. Target sizes: [1, 17280]. Tensor sizes: [2640]"と表示され、うまく処理されません。考えられる原因をご教授いただけましたら幸いです。（ファイル名にも日本語は含まれていません。）
@yumeno_momonose 2 месяца назад
pythonのバージョンは何がインストールされていますか？？
@pi_pipi314 2 месяца назад
@@yumeno_momonose 3.10.10です。
@pi_pipi314 2 месяца назад
@@yumeno_momonose 3.10.10です！
@yumeno_momonose 2 месяца назад
問題ないですね…💦
特徴インデックスのトレーニング後、ワンクックトレーニングではなくモデルのトレーニングから学習させても同様でしょうか？
@pi_pipi314 2 месяца назад
@@yumeno_momonose だめでした💦
@Maralog 7 месяцев назад ⁺¹
harvestとrmvpeとrmvpe_gpuではどれが一番高品質ですか？
@yumeno_momonose 7 месяцев назад ⁺¹
なんとなく個人的な見解ですがrmvpeが一番好きですね！
rmvpe_gpuは若干粗がでる気がします
@Maralog 7 месяцев назад
ありがとうございます。やってみます！
@Maralog 7 месяцев назад
もう一つ質問なんですが、素材のデータは高い声がないほうがいいのでしょうか
それとも少し高い声を入れたほうがいいのでしょうか？
@yumeno_momonose 7 месяцев назад
入れておいた方がいいと思いますよ！いろいろな感情が乗ってる素材の方が実使用で破綻しづらいです！
@Mxsgiuj444 Месяц назад
コメント失礼します！
ワンクリックトレーニング後にindexはあるのですがpthがありません！
あとcmdには
RuntimeError: Error(s) in loading state_dict for SynthesizerTrnMs768NSFsid:
size mismatch for dec.ups.0.weight_v: copying a param with shape torch.Size([512, 256, 16]) from checkpoint, the shape in current model is torch.Size([512, 256, 24]).
size mismatch for dec.ups.1.weight_v: copying a param with shape torch.Size([256, 128, 16]) from checkpoint, the shape in current model is torch.Size([256, 128, 20]).
と記載されていましたが関係はありますか？
@yumeno_momonose Месяц назад
step1とstep2を実行後にワンクリックトレーニングではなくモデルのトレーニングを実行していただきEpoc1 Epoc2と学習が進むか確認してみてください…！
@Mxsgiuj444 Месяц назад
@@yumeno_momonose モデルのトレーニングを実行してみたんですが
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 10.00 MiB (GPU 0; 4.00 GiB total capacity; 2.07 GiB already allocated; 0 bytes free; 2.16 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
こんな風なエラーを出されてしまいました・・・
@yumeno_momonose Месяц назад
VRAM不足のエラーが出てますね💦
使用しているのは970、1050tiあたりのグラボでしょうか？
最低6GB程度無いと学習は厳しいと思います…
@user-dt4pw4bm6g 5 месяцев назад
Audacityのリンクがないので貼ってくださるとありがたいです！
@OK_OK_OK-r2z Месяц назад
ステップ3のワンクリックトレーニングを行うと
「IndexError: list index out of range」
というエラーが出てくるのですが原因わかりますかね…？
忙しい中質問すみません…
@yumeno_momonose Месяц назад
遭遇したことのないエラーですね💦
少し調べてみます
@OK_OK_OK-r2z Месяц назад
@@yumeno_momonose
返信ありがとうございます！
このコメントをした後色々試したのですが、一旦Pythonをアンインストールしてから再インストール、RVC1006NvidiaではなくRVC0813Nvidiaでこの動画の手順通りにやり直したところ問題なく動作しました！
自分の他にも同じようなエラーが起きている方がいれば参考になると幸いです
@tagishi3097 6 месяцев назад
MacBookの場合はMacBookのPythonを選べばいいですか。
@yumeno_momonose 6 месяцев назад
申し訳ありませんMac環境がなく検証ができないのですがpythonのマック版があればそちらをインストールでいけるとおもいます…！
@Sirakiyukikaze2 6 месяцев назад
色々rvc作ったり買ったりしているんですが自分の声が悪いのかマイクが悪いのか、なかなか納得のいくやつがありません！
心折れかかってます！
作った場合声が素材と全く違ってしまったり、買った場合サンプルボイスと全く違う声になってしまいます！
クライアントの設定等もちゃんと調べてやってるんですがうまくいきません…
あとなんか活舌すごく悪くなります…
助けてください…
@yumeno_momonose 6 месяцев назад
活舌が甘くなるのはモデルが原因の可能性が高いと思われます…
無音の切りつめで切りすぎていたり、音声データの声が鮮明でなかったり…
まずはマイクの入力音量を小さめにしてみると少し改善するかもです
@mev1us418 2 месяца назад
突然コメントしてしまって申し訳ありません。ワンクリックトレーニングを押した後の処理画面で
Converged (lack of improvement in inertia) at step 328/6275
と表記されて止まってしまうのですがこれは何がいけないのでしょうか…
@yumeno_momonose 2 месяца назад ⁺¹
たまに同じような現象で悩んでいる方をお見受けするのですが原因の特定が難しく💦
使用しているRVCのバージョンとGPUをお教えいただけますか？
@mev1us418 2 месяца назад
@@yumeno_momonose RVCはRVC1006Nvidia (これで合っているでしょうか) で、GPUはRTX4060Tiです！
同じ方がいらっしゃるんですね😢
@yumeno_momonose 2 месяца назад
当方も1006Nvidiaですね！
ちなみに学習に使用したデータ数と合計の素材の時間(だいたいでかまいません)をお教えいただけますか？？
@mev1us418 2 месяца назад
@@yumeno_momonose データ数は10で、素材の時間は1時間20分くらいです！
返信が遅くなってしまいごめんなさい🙏💦
@鈴木ろみ 5 месяцев назад
初歩的なことでつまづいているのですが、デスクトップをDesktop表記にする方法が知りたいです…。
オーディオをエクスポートする際のフォルダー名に必ずカタカナでデスクトップの文字が入ってしまいます…。。
@yumeno_momonose 5 месяцев назад
おそらくOneDriveと同期されているのが原因です。
面倒であればCドライブ直下にフォルダを配置するといいですよ！
@aopenpen 6 месяцев назад ⁺¹
ワンクリックトレーニングまでは上手く出来たんですが、エポックが1回で止まってしまうんですけど原因分かりますかね..
@yumeno_momonose 6 месяцев назад
使用しているGPUによっては1エポック20分近くかかるものもありますが止まってどれくらい時間がかかってますか？
@aopenpen 6 месяцев назад
gpuは1660superで３０分ほど止まっております。それとFalse is deprecated. In a future pytorch release, stft will return complex tensors for all inputs, and return_complex=False will raise an error.のようなエラー？が発生して止まっています・・@@yumeno_momonose
@yumeno_momonose 6 месяцев назад
さすがに30分は遅すぎる気がします💦
1epchの後にこのエラーが表示されてますかね？？
@okkotsurikaaaa 6 месяцев назад
nvidiaとRadeonだったらどっちの方が早いとかありますかね？
@yumeno_momonose 6 месяцев назад
nvidiaのほうが早いです。またトラブルも少ないかと…！
@ふりゅー-k9f 6 месяцев назад
質問失礼します。RVC Web UIのステップ2aのデータ処理でエラーが出てしまうのですか、原因は何でしょうか
@yumeno_momonose 6 месяцев назад
まずはcmd上でのエラーを確認したほうがいいですね！
@rice_cake-i6o 7 месяцев назад ⁺¹
RVC web UIをを開こうとすると503
Hugging Face is in maintenance と出てきてしまうのですがどうすれば良いでしょうか?
@yumeno_momonose 7 месяцев назад ⁺¹
現在hugfaceのサーバーが落ちているようなので復帰したら起動可能かと思います…
@rice_cake-i6o 7 месяцев назад
ありがとうございます。何度もすみませんが学習させるデータは合計で最低何分くらいあればまともな音声になりますか？
@yumeno_momonose 7 месяцев назад ⁺¹
こもっていたり、音が割れたりしていない音声であれば40～50分くらいあればいい感じです！
@endo1185 4 месяца назад
エミュレータ入れて斉藤さんで釣りやろうかなぁ
@shigekiy0624 2 месяца назад
エポック数とかは良く分から無いけど、トータル1時間なら30と150で大丈夫そうですか？
@yumeno_momonose 2 месяца назад
元素材によりますが合計1時間程度の素材であれば200程度回してます…！
@shigekiy0624 2 месяца назад
@@yumeno_momonose トータル1時間で30と200ですね！ありがとうございます！
@とーちる-p5t 7 месяцев назад
質問失礼します。
2ヶ国語をしゃべる人の英語で喋ってる素材と日本語で喋っている素材を学習させた場合どうなるんでしょうか。
@yumeno_momonose 7 месяцев назад
同一人物がしゃべっている場合ですが、日本語のみの時とほぼほぼ遜色ないモデルが出来たはずです…！
@とーちる-p5t 7 месяцев назад
@@yumeno_momonose ありがとうございます
@ピカ中-u9u Месяц назад
ワンクリックトレーニングした後にpthファイルはありますが、addedなんたらのファイルがみあたりません
@yumeno_momonose Месяц назад
indexファイルの生成に失敗している可能性があります。
同じモデル名、設定値でindexのトレーニングを実行してみてください！
@ピカ中-u9u Месяц назад
@@yumeno_momonose 明日試してみます！
分からなかったらまた聞きます
@ピカ中-u9u Месяц назад
@@yumeno_momonose 無事にできました！対応が早くて助かりました！
@めありー-x5e 2 месяца назад
トレーニング用の音声を入れる、step1のデータ処理のところで「ディレクトリ名が無効です」とでてしまいます。MP3で音をダウンロードし、メディアプレーヤー？に入っている音源のパスをコピーして、しっかり名前も日本語表記になっていたので直しました。何が原因でしょうか💦
@yumeno_momonose 2 месяца назад
日本語以外にもスペースなどが入ってたりしませんか？あとパス自体に日本語が含まれてませんか？特に(デスクトップ)
@めありー-x5e 2 месяца назад
@@yumeno_momonose 確認しましたが、スペースもなく、日本語も含まれていませんでした...
@yumeno_momonose 2 месяца назад
状態を見てみないとなんとも言えないのでどうしても解決しなければDMいただければわかる範囲でアドバイスさせていただきます！
@l4d1sh 6 месяцев назад
RX6650XTを使用していてwin ONNX(cpu,DirectML)をダウンロードしたのですがGPUの欄にCPUしか表示されません...対処法などありますでしょうか？
@yumeno_momonose 6 месяцев назад
DirectML版の場合は横並びでCPU GPU0 GPU1 GPU2のような表記になってると思うのですが確認できますか？
@NE-11206 4 месяца назад
性能足りなくて１０時間GPU１００％にしてファイル作ったんですけど皆さんどれぐらいかかりました？
@yumeno_momonose 4 месяца назад
RTX4000番台だと200エポック2時間ちょっとらしい…
4090で素材60分程度で1時間くらい
@45t99 5 месяцев назад
pthのファイル(最後の二つ)はどこで使えばいいですか？
@yumeno_momonose 5 месяцев назад
ファイル2つが完成＝声の学習が終わった状態です
完成したものはVC Clientというもので使用が可能です。『VC Clientで女の子になろう』の動画を参照していただければ幸いです
@taka3061 6 месяцев назад
ディープ学習させて、13時間むりさせて(i7-13650 HX /rtx 4060 laptop)、声がやはり雑音入ったり、ロボットのような声があったりします、地声が低めですが、関係ありますでしょうか？
モデルの音声はあみたろからダウンロードのものです
@yumeno_momonose 6 месяцев назад
学習させた素材が細切れすぎてきれいに学習できていないような気がします。
どれくらいのデータ量を何エポックで回しましたか？13時間となるとかなりの量と思いますが、多すぎ、回しすぎもよい結果にはなりづらいです💦
@kinako10969 6 месяцев назад
17:42 もものせさんのような綺麗なモデルを作る場合、5分の素材は何個ほどいるでしょうか？教えて欲しいです
@yumeno_momonose 6 месяцев назад
合計60分くらいあれば完璧です！
@kinako10969 6 месяцев назад
@@yumeno_momonose 了解です！ありがとうございます！
@知多-x2g 3 месяца назад
トレーニングを行おうとしたのですが、GPUを認識してくれません。
RVCの画面では「トレーニングに対応したGPUが動作しないのは残念です。」と表示されてしまいます。
僕のPCは、
GPU0にIntel(R) UHD Graphics 630
GPU1にNVIDIA GeForce MX250
となっています。
解決法ご存知であればご教授いただきたいです…😢
@yumeno_momonose 3 месяца назад ⁺¹
もともとインテル内蔵グラフィックUHDシリーズでは学習ができず、MX250はVRAMが2GBが最大でこちらも容量が足りず学習ができないためそのような表示になっているかと思います。
@知多-x2g 3 месяца назад
@@yumeno_momonose
なるほどです
容量が足りなかったんですね
ではcolab等から行う必要がありそうですね…
勉強になりました！
ありがとうございます🙇
@user-md1pi5ft2r 5 месяцев назад
コメント失礼します。
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x83 in position 28: invalid start byte
こちらのエラーが出た後何か処理が始まるのですが途中で止まってしまいます。
何かわかりませんか？
@yumeno_momonose 5 месяцев назад
すみませんこちらでは確認できていないエラーです💦
python関連のエラーのようなのですが、一度環境を整えなおしてみることをお勧めいたします。
pythonのアンインストール、RVCの入れ直しを検討してみてください
@karamerudesu 5 месяцев назад
聞き逃してしまったのだと思いますが、18分17秒の所の、さきほどつくったフォルダってどのことでしょうか、、、！！ｃドライブに新しくフォルダを作成（C;\とれえにんぐ）という名前で作成→その中にクリップした音声を入れて、サイトでデータ処理を行うとエラーが出てしまいます。
@yumeno_momonose 5 месяцев назад ⁺¹
音声データの書き出しフォルダですね！場所はどこでも構わないのでローマ字表記のフォルダを作ってください。その中に音声ファイルを書き出します。※書き出した音声データもローマ字表記で
@karamerudesu 5 месяцев назад
@@yumeno_momonose OSError: [WinError 123] ファイル名、ディレクトリ名、またはボリュームラベルの構文が間違っています。:って出てきてしまいます、、、
@yumeno_momonose 5 месяцев назад
状況のスクショをいただきたいのですがこちらでは画像を貼れないのでよろしければDMください
@haihai7151 5 месяцев назад
自分のGPUがIntelでそのファイルをダウンロードしてワンクリックトレーニングを押したんですけどなぜかファイルに保存されていません。どうすればいいですか？
@yumeno_momonose 5 месяцев назад
現状Windows環境ではNvidia製GPU以外での学習はできないと考えてもらっていいと思います…
すみません説明不足でした
@vqwellx 6 месяцев назад ⁺¹
RVC解凍したあと、go webが無いのですがどうすれば良いでしょうか、、ちなみにGPUはAMDでAMDバージョンをダウンロードしています、
@yumeno_momonose 6 месяцев назад
遅くなり失礼いたしました💦
説明不足ですみません、Nvidia製GPU以外をご利用の場合はwindows上での学習は基本的に不可能と思ってもらっていいと思います。Linux環境などでは可能です。
@vqwellx 6 месяцев назад
@@yumeno_momonose とんでもないです！返信ありがとうございます！
なるほど、、Linux環境の構築は難しいでしょうかね、、？
@yumeno_momonose 6 месяцев назад
@@vqwellx それなりの知識は必要かと思います…多少お金はかかりますがgoogle colabratoryを使用して学習するという方法もありますね！
@vqwellx 6 месяцев назад
@@yumeno_momonose なるほど！遊びでやってみたいだけなので色々学んでみてLinux環境でやってみようと思います！また何かあったらお聞きしてもいいでしょうか、？
@vqwellx 6 месяцев назад
@@yumeno_momonose なるほど！ありがとうございます！興味の範囲でやってみたいだけなのでLinux環境作ってやってみようと思います！出来るかは分かりませんが！笑
またどうしても分からなかったら質問してもよろしいでしょうか、？
@サッカー野球-s3j 7 месяцев назад
最低でもRTX4070以上あった方がいいですか？
@yumeno_momonose 7 месяцев назад ⁺¹
学習させるのであればVRAMが多ければ多いほど速いので購入を検討するのであればやはり4070クラス～が選択肢としては正解と思います！
@k_lqrs 6 месяцев назад
AIに学習させる音声ファイルは、声のみでないとダメですか？
（声以外というのは、背景BGM等です。）
@yumeno_momonose 6 месяцев назад ⁺¹
できないことはありませんが、品質面ではどうしても音声のみと比べると圧倒的に劣ってしまいます…
@k_lqrs 6 месяцев назад
@@yumeno_momonose 声以外のノイズに強くなったりする、みたいなのってあったりしますか？
@yumeno_momonose 6 месяцев назад ⁺¹
ないとおもわれます…！
@k_lqrs 6 месяцев назад
ありがとう！学習の参考にしますわ！（？）@@yumeno_momonose
@んせぽで 2 месяца назад
質問なのですが、ステップ2aで接続エラーになる要因って
何が考えられますでしょうか？
@yumeno_momonose 2 месяца назад
なんとなくセキュリティソフトが怪しいかと…！ウイルスバスター、ノートンみたいなの入ってませんか？？
@んせぽで 2 месяца назад
@@yumeno_momonoseソフト消したら行けました！
ありがとうございます！
@じゅんたに-t9k 25 дней назад
windowsパッチファイルを開いて黒い画面が出てもすぐ消えますどうしたらいいですか？
@yumeno_momonose 25 дней назад
学習ソフト(RVC)とVC Clientのどちらですぐ画面が消える問題が起きてますか？
@シャスール Месяц назад
解説ありがとうございます！
質問なのですが、
7時間分程度の動画からBGMなどを切り取った上で5分刻みで分割しました。
そのうえで総エポック数150で実施してみたのですが、話してみると外国人のように一部の発音がうまくできていないような形で出力されます。
試しに50音などを順番に話した時も一部の発音がうまく認識されませんでした。
これは、元にしたデータ側に発言が少なすぎることが原因でしょうか？
それとも学習が足りていないのでしょうか？
また、データから雑音を切り取るとき、吐息なども消したほうがいいのでしょうか？
@yumeno_momonose Месяц назад
実際にデータを確認させていただいていないので確実なことは言えませんが、BGMを処理したことで破綻が大きくなっている可能性が高いです。処理したデータと元から音声だけのものを比べると処理したものが数段劣ってしまいます。私個人の見解ですが、吐息などは入れて学習させた方が自然な仕上がりになりやすいと思います
@一般人-n2o 6 месяцев назад
25:26
自分用保存
@nova4842 7 месяцев назад
昔使ってたのですが今は機械ぽさってなくなってますか？
@yumeno_momonose 7 месяцев назад
初期のころと比べるとかなりいい感じになってると思います…！モデルによる差異が大きいので品質さえしっかりしていれば機械っぽさは出づらくなってる印象ですね！
@ゆあ-s6s 6 месяцев назад
ゲーム配信しながらずっと使ってたら結構重くなっちゃいますか？
@yumeno_momonose 6 месяцев назад
100時間程度連続稼働してますが問題なさそうです！
@ゆあ-s6s 6 месяцев назад
@@yumeno_momonose わかりました！ありがとうございます！
@ピーターRC 6 месяцев назад
全工程が完了って出てアセットを見に行ったんですけどPTHファイル?がなくてindexファイルだけが生成されてるんですけどどういうことでしょうか😢
@yumeno_momonose 6 месяцев назад
ワンクリックトレーニングに失敗しています💦
cmd(黒い画面)でepoc1、epoc2と順番に学習は進んでましたか？
@printer3d513 7 месяцев назад
初コメです。RVCのダウンロードのところでダウンロードしたファイルがPDFのような表記でもものせさんのような圧縮ファイルをダウンロードできません。私が何かミスをしているのでしょうか。
@yumeno_momonose 7 месяцев назад
ダウンロードに失敗していませんか？💦
ブラウザを変えて再度ダウンロードしてみるといいかもです…！
@printer3d513 7 месяцев назад
@@yumeno_momonose ご返信ありがとうございます！　そのDLしたファイルを解凍すれば大丈夫でした。失礼いたしました。重ねてご質問になりますが、アニメ等のボイスを抜き取る場合、BGMなどほかの音が入ってしまうので、15秒とかの音声データだとさすがに機械学習は難しいでしょうか？
@yumeno_momonose 7 месяцев назад
合計15秒ということであれば厳しいですが、1音声データ15秒を何個もということであればいけると思います！
@printer3d513 7 месяцев назад
ご回答頂き、ありがとうございます！　いろいろ準備してやってみようと思います。mp3変換の時の広告？がひどいのが大変ですね(笑)

Следующие

Автовоспроизведение

【AIボイチェン】VC Clientで女の子になろう！Ver2対応版リメイク【RVC】