Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
変に凝った動画じゃないから逆に分かりやすい
もものせさんだ~!Ver2対応版のリメイク動画お疲れさまです!いつもとても丁寧で、誰でも使えそうな分かりやすい解説ですね!ここまで細かく解説ができる=VC Clientのことを本当に良く理解していらっしゃるのだなあと思いました。ずっと「もものせさんボイス」かと思ったら、今回は中の人パートの方が長めなのですね。当たり前かも知れませんが、変換前/変換後でも説明が丁寧で上手なのは変わりませんし、地声も 変換後とはまた違った良いお声で魅力的ですよね。話し方の細かい癖や笑い方等も含めて「どちらもしっかりもものせさんだなあ~」と感じました。声をいろいろいじって魅力的にするのも大切ですけれど、それ以上にトークスキル大事!と思ってしまいましたwまたお時間ある時、雑談配信等楽しみにしてます!
ありがとうございます☆今回は少し地声パート多めにしてみましたwトーク力…間違いないですね!もものせも頑張らねば…!
凄くわかりやすかったです、cuda版導入してみたのでいろいろ試してみようと思います
わかりやすい動画ありがとうございます✨️高評価も押しました👍
ありがとうございます!!
まってたぜぇ。。
うぇい!
有識者様何人かお聞きしたいです。自分の地声でも違和感ない学習データを買い漁るべきか、なりたい声を買って発声の仕方を練習するべきか、どちらの方が賢明ですか?(またどちらでやられてますか)どれくらい課金するべきなのか迷っています
なかなか難しいですね💦発声の練習をしなくてもそこそこのクオリティになるのがRVCの強みの一つだったりしますからご自身でうまく変換されるモデルを作ってみるのが一番コストがかからない方法ではありますね…!
@@yumeno_momonose 回答ありがとうございます。ゆるふわ系の女の子の1万のもの買い、地声であらゆるピッチ試したのですがサンプルようなかわいい声にはうまくいかなかったので相談させていただいた次第です。系統も変えてみたりしようと思います。
もものせとかいう余計なことせず要件サクッとまとめるの上手い女(男)誇らしくないの?
誇ってく(*'ω'*)ずいぶんほめてくれる🍑
動画投稿お疲れ様です!いつも参考にさせていただいてます!そこで、もものせさんのお声について、いくつかお伺いしたいことがあります。・元の音源として、数時間分の音源が1~2個ある形なのか、それとも1分程度の短い音源が数百個ある形なのでしょうか?・学習の際に設定されたエポック数と、何エポック毎に保存を行っているのか?・また、元音源はBGM付きの雑談配信(声抽出)などの形でしょうか?それとも、シチュエーションボイスのような音源でしょうか?以上3点について、差し支えない範囲で教えていただけると嬉しいです。
ご視聴ありがとうございます!・学習は5分程度に切り分けたデータを10個ほど用意しています・エポック数は200程度、保存に関しては品質に影響しないため50エポック毎にしています・元音声はBGMのない配信(映画やアニメの同時視聴)がおすすめですこんな感じですね!
@@yumeno_momonose 返信ありがとうございます!5分×10程度でも、かなり高い精度が出せるんですね…驚きです。私も元音声として同時視聴の音源を探してみたのですが、メンバー限定のものが多かったり、あまり喋られていない方も多くて…。そのため、シチュエーションボイスやBGM付きの配信から音声を抽出して学習させてみました。ただ、特定の音に少しBGMが残ってしまったり、ボイチェン感が出てしまっていてやはり精度が悪かったです。次は、良さそうな同時視聴配信をしている方を探してみようと思います!質問に丁寧に答えていただき、ありがとうございました!応援してます、頑張ってください~!
地声の問題かもだけど、変換後の声がちょっと揺れてたり、たまに違う言葉に変更されたりするんですが、設定でどうにかなりますか?後、ゲインってどういう時にいじればいいですか?
なんとなくモデルの品質が良くない気がします💦ゲインに関してですが、入力音量が大きいと声が破綻したり、誤変換が多くなる印象があります。出力された声がこもらないぎりぎりのラインで小さく入力してあげるときれいに変換されやすくなりますよ!
グラボがないと使えないと思うのですが、グラボくらいの性能があると言われるRyzen 7 8600Gみたいなのでも無理ですか?
DirectMLで動作する環境になるのでワンちゃん動く可能性はあります。ただし、GPU支援が有効になるかはこちらで環境がないのでちょっと不明ではあります💦
この動画を参考にさせてもらい、RVCセットアップ完了しました。ですが気になる点が2つ。起動後数分してプロンプトに赤文字でエラーのような文言が出てきて長時間使用できない点と、2点目、遅延は付き物だと思いますが性能の良いグラボを積むと遅延は感じられなくなるものなのでしょうか。自分はRTX3060tiを積んでいます。遅延があってコミュニケーションに遅れが出てしまいます…
返信が遅くなり失礼しましたまずエラーですが内容が分かれば記載をお願いいたします…!遅延に関してですがこれ以上上のグレードのグラボにしても差はないと思います。品質を若干犠牲にしてCHUNK値を下げるしか現状ごまかす方法はないと思います…💦
@ Googleのカメラ翻訳で訳したところVRAM容量が不足してますよーみたいな文章が出てきました、今使ってるグラボのVRAMは8GBだった気がします。VRチャットなどで会話しようとする場合遅延と品質の優先度はどちらが高いと思いますか。
何かVCC以外にゲームなどをプレイ中に発生する感じでしょうか?VRチャットなどリアルタイム性を重視するものの場合は遅延の少なさを優先したいですね…!会話が発生する使用方法の場合、遅延はお互いストレスになる可能性が高いです💦
@ 色々試した結果遅延と品質のバランスが悪いと赤文字出てきました。今は何とか解決できました。返信遅くなり失礼しました
もものせさんの動画を拝見してvcclient導入してモデルも購入しちゃいましたもものせさんが自然すぎて驚いていますこれはRVCによるものでしょうか。それとももものせさん本人の喋り方によるものもあるのでしょうかあと、VCClientの各種設定値も参考に教えていただきたいです。
ご視聴ありがとうございます☆モデルをご購入なさったんですね!ちょっとしたコツですがマイク入力音量は小さめ(VCCの標準は1ですが0.2~0.3くらい)にすると破綻しづらくなります!しゃべり方は特に工夫はしていないです…!参考CHUNK 256 (Ver2 21600)EXTLA 4096index 0.3こんな感じで運用しています(*'ω'*)
お返事ありがとうございますRVCでの学習方法も拝見したのですが素材が見つからずに購入しました設定値ありがとうございます。参考にさせていただきます
投稿お疲れ様です質問なのですがインデックスファイルありでアップロードして使用すると常時CPU使用率がものすごく上がるのですがこれは仕方ないことなのでしょうか(pthファイルのみだとほぼ変化なし).旧バージョンではindexファイルありだと変換のタイミングだけ一時的に上がるイメージでしたが常に100%となってくると渋さを感じざるえません。。indexファイルの有無で変換後のクオリティはあまり変わらないので別にいいといえばいいのですが、最新世代のi7を使用していても必ず100%まで上がるので少し気になります。また、クライアントモード推奨とのことですが、なにか理由があるのでしょうか。個人的にはサーバモードのほうが動作が軽くクオリティも高いよう(遅延はクライアントに比べ若干感じますが)に思えるのですが、、
コメントを見逃していました…失礼いたしました💦index値を上げるとCPU側に処理が偏ります。ボイス変換はGPU側で処理を行うのですがindex(特徴データ)に関してはCPU側での処理のようです。特段必要がなければindexに関してはなくても問題ないと思います。VCC Ver2に関してはサーバーモードでの不具合が多数報告されており、現状ではクライアントモードでの運用を推奨しております。マイクを認識しない、急に声が入らなくなるなど不安定な状況が発生しているようですのでVCC Ver2の場合はそういった不具合のようなものが発生する可能性があるということは事前に把握しておくとよろしいかと思います…!
@@yumeno_momonose 返信ありがとうございます。なるほどです。。確かにボイチェンで安定感は大切ですね!index処理もグラボでやってくれればいいのに、、笑ちなみになのですがextra値を上げると確かに変換クオリティは上がっているのに遅延に関しては表示されている秒数に対してほとんど感じません、これはなぜかわかりますでしょうか?
そうなんですよね…wextlaに関しては本来は乗数に応じて遅延も変動するということになっているのですがこちらでも大きな遅延は確認できてないんですよね💦なのであまり気にせず使ってもいいんじゃないかな?と思いますw
訳あってPCからVC Clientを削除したいです。コンパネの「プログラムのアンインストールまたは変更」のページにはVC Clientらしきものは見当たらなかったのですが、Cドライブ直下に解凍したvclientのフォルダを削除するだけでよいのでしょうか?他にも何か消すべきものはありますか?
CドライブのMMVCフォルダを削除するだけで大丈夫ですよ!
抑揚のある声や笑い声を出すと、裏返っちゃったり、「ハァ~、ファ~」みたいな掠れた感じを防ぐ方法はありますか?
なかなか難しかったりします💦元の話者の笑い方や声の出し方にそれなりに依存するため、その発声の仕方になるべく合わせるか特徴の似ている方から学習したモデルを使うとかなり自然になる印象です…!
discordで通話するとザーという雑音やノイズが入ることがあるのですが、雑音やノイズを無くすことはできますか
何が原因なのかですね💦discordでのみ発生するのかが分かれば問題の切り分けができると思いますがいかがでしょうか?
とてもきれいな変換で尊敬です!もし良かったら教えて下さい。モデルの作成について使用されている事前学習モデルがなにか教えていただけないでしょうか?当方、Apllioを用いてKLM4.1を使用していますが喋り言葉の変換でここまでの精度が出ないように感じております。また今回の動画のような収録にOBSなどをお使いかと思っていますが、VCClientの変換音声にたいして何かしらのプラグイン処理(ノイズ処理やイコライザー等)を実施されていますでしょうか?もし実施されている場合はどのプラグインでなんの処理を実施されているのか参考にさせていただけると嬉しいです。以上、お手漉きのときなどに教えていただけると嬉しいです。
おほめいただき光栄でございます(*'ω'*)事前モデルはRVC1006Nvidiaに最初から入っている(最初から選択されている)モデルです。普段はOBSを使用しておりますが、特にエフェクトやプラグインなどは使用せず、VCCからの音声をそのまま配信や録画に出力しております…!
@@yumeno_momonose ありがとうございます!それでこのレベルに達せられるんですね!調声頑張ってみます。
初回起動時変換がうまくいかず、一度閉じて再起動したのはいいんですが、スタート ストップ パススルーのボタンが消えてしまったのですが、再インストールした方が賢明ですかね、、?
おそらく解凍のところから再度構築した方が話は早いと思われます…💦
お世話になってます。ver2でも2pcで動かすことは可能でしょうか?私の環境だとうまく動かなかったです。
VCC2でも2PC運用は可能ですよ!httpsを開くとボイチェンの窓が開くのですがそれはそのまま放置してcmdにURLが出ているはずなのでそれをほかのPCで開いてみてください
@@yumeno_momonose ありがとうございますっ! 動きましたー感謝っ!
よかった!よきボイチェンライフを🍑
Serverモードにして開始を押して停止を押すと422[Unprocessable Entity]: Recording failed. Please check audio device setting and start converting.とでて変換できません~💦
サーバーモードに何か不具合ある気がする💦クライアントモードでの運用推奨…!
@@yumeno_momonose それがクライアントに戻せないんですぅ〜💦
いったん削除して環境構築しなおし!
すみません質問なのですが声が入力されません対処法などってありますか?
状況を確認したく思います…!・使用しているPCに搭載されているGPU・VCCはCUDA or Stdこちらの情報をお教えいただけますか?
@yumeno_momonose GPUはRadeon7600でVCCはStdを使ってます
RX7600ですかね?GPUでのボイス変換支援を効かせるにはモデルをonnxへ変換(VCC上にボタンがあります)、F0Datの項目をrmvpe_onnxにしていただくと変換されると思います。その後clientモード、inputにマイク、monitorに普段音を聞いているデバイスを指定して声が返ってくるか確認してみてください
できました!ありがとうございます!
初めまして動画通り終わって設定を変えたくて入ろうとしたら何処から入ればば良いのか分からなくなり最初からやったのですが詳細から情報をクリックして実行をだして入っても小窓が消えてはいれないのですがどうすれば良いでしょうか?🥲よろしくお願いします
2度目の起動もstart_httpから起動していますか?小窓が消えるとのことですがcmd(黒い画面)でしょうか?
@@yumeno_momonose再設定を変えたくて8:55 ここをやり直したのですが出て来なくて設定画面まで入れなくて困ってます。
8:55というと黒い画面が表示されてダウンロードが始まるところかと思うのですが、黒い画面自体が立ち上がらないという認識でよろしいでしょうか?その場合はVisualStudioをインストール→その中のpython開発環境というものをインストール後再起動を行ってみてください…!
ver1と比べて何が変わったんですか?
onnxモデル使用時の負荷が軽くなったこと、CUDA版とDirectML版のUIが統一されわかりやすくなったことが大きな変更点かと思います…!
わかりやすい動画ありがとうございます4つ程質問をよろしいでしょうか1. 旧バージョンのRVCは削除してよいのでしょうか?2. モニターのループバックのくだりがよくわかりませんでした3. ボイチェンを利用するにはオーディオインターフェース(機械)が必須でしょうか?4. ボイチェンの起動は毎回start_http.batから行うのでしょうか?教えてくださると幸いです
ご視聴ありがとうございます!1、VCC2での運用で問題なければ削除OKです2、VCCのAudioの項目にmonitorという項目があります。これは変換後の声を聴くためのものであり不要であればnoneにしていただいて問題ありません3、USBタイプのマイクなど、音声を入力できる環境があればOKです4、起動は毎回start_httpからになります以上が簡単な回答となります!もし不明点があれば遠慮なくコメントください!
@@yumeno_momonose ありがとうございます!
クライアントモードで使用のマイクと仮想オーディオデバイスを選ぶ事ができないのですが対処法分かりますか?
一度windowsの再起動を行ってみてください。それでも選択不可能な場合は再解凍(以前に解凍したフォルダを削除したうえで)して環境を構築しなおしてみてください…!
すいません、色々といじっていたらできました。使ってみて以前のバージョンと比べて不安定な感じを受けるのですが自分だけでしょうか?
一度安定してしまえば問題ないのですが、初回起動時に若干の不安定さが残っているように思います💦ただし、負荷の面ではVer2が少し有利に思いますね…!
解説ありがとうございます。手順通りに解凍して、start_http_with_ngrokを押したのですが、input ngrok token:という一文が表示されるだけで、ダウンロードが起こりませんでした。
ngrokではなく、start_httpを実行してください!
すみませんコメント失礼します編集の所でアップロードしようとしてmodel(pth)とindexを選択してアップロードを押すと49%ぐらいの所でインポートに失敗しましたモデルconfigと出てきてアップロードができなくて困ってます。説明下手で申し訳ないです。
セキュリティソフトなどが邪魔をしている可能性はありませんか?boothなどで無料配布されているモデルなどを用意してアップロードしてみる→問題なければモデル自体に問題があると思います
@@yumeno_momonose 返信頂きありがとうございます。なんとか解決はできました!追加で申し訳ないです。声が繰り返し聞こえてきちゃったり雑音が入っちゃうみたいなんですが解決方ってありますか?BOOTHの所で高品質の物を購入すればなくなりますかね?
音声の出力がスピーカーなどからされていてそれをマイクが拾っている可能性はないですか?
失礼します先ほどvc client2をインストールし、以前のvc clientと同じように2pcで使用しようとしたのですが、なぜかサブPCの方のGPUが使用されず、CPUの方が使用されてしまいます設定画面でも、間違いなくGPUを選択しているのですが、対処法を知っている方がいればお教えいただければ幸いです、、、
VCC Ver1系では問題なくGPU支援が効いていた感じでしょうか?もしかするとドライバの更新で解決するかもです…!
@@yumeno_momonose 1では問題なく動いていました!ドライバの更新ですか…やってみます!返信ありがとうございます!
@@yumeno_momonose 更新しても解決しませんでしたね、、何が原因なのやらw
VCクライアントでボイチェンされた声が小さくなってしまいます。音を上げるにはどうしたらいいですか?
VCCの右上、OutPutの項目を少し上げてあげるといかがでしょうか?
なんで変換後もこんなに滑舌がいいんですか?
モデルの品質によると思いますよ!
2回目以降の起動の仕方がわかりません!
初回と同様、start_httpから起動しましょう!
お疲れ様です!お久しぶりです!動画ありがとうございます。Ver2が出たとのことですがVer1からの移行をする大きな音質の変化やその他メリットってありますか?Ver1をある程度設定済みなのでさほど変わらないならこのままVer1で行こうかなと思ってます。
お久しぶりです!onnxモデルを使用した際の負荷が軽くなった印象を受けました。GPU負荷が高い状態でも安定しやすくなったような感じがしますね!
なるほど〜!印象では自分の使用環境ではさほど変化は無さそうです。返信ありがとうございました😊またライブ行きます(^^)
AIボイチェン界隈でも本当に桁違いの出来…脳みそが破壊された後に性癖が再誕されたわ…
start_httpで子マントプロンプトが開いた状態でずっとダウンロードされないです...対処法とかありますか?
ウイルス対策ソフト(ウイルスバスター、ノートン)などが動いている可能性はありますか?
オフにしたら出来ました!ありがとうございます!!
地声もキレイですね!普通に女の子の声だせそう
ありがとうございます(*'ω'*)女の子の声は…むずかしいですよね…w
やっぱりこういう時にRadeonはちょっと使いづらかったりするんですかねぇ
モデルをonnxへ変換するという工程が発生しますがUIもCUDA版と同じになりましたし使いづらさは減ったと思います!
@@yumeno_momonose なるほど〜ただモデル作成の学習がRadeonだと出来ないんでしたっけ…
@@rice_cake-i6o そうなんです…windowsでの学習はCUDAを使用するためNvidia系GPU必須で💦Google colabを使用しての学習は可能なのでそういったサービスを利用する手もありますね!
このアプリを起動するときはどう起動し直したら良いんでしょうか
毎回start_httpから立ち上げる形になります!
@@yumeno_momonose ありがとうございます!Start_httpはデスクトップ上に置くと起動しなかったので解凍したファイルをCドライブ上において起動しないとダメって感じなんですね。Yamahaのアプリの使い方の動画もアップロードされているんでしょうか?
ショートカットとしてデスクトップに配置は可能だったはずです!syncroomはインストール後に触ることはないですね!syncroomに付属されている仮想オーディオケーブル機能を使用しているだけなのでインストールが完了していればOKという感じです
@@yumeno_momonose ご丁寧にありがとうございます。ショートカットではなく、cドライブから切り取って貼ってたからダメだったみたいです。上手くできました!これからver更新等あると思うので参考に動画拝見させていただきます。動画投稿応援しています!
サーバ入出力テストをすると422のエラーがでます。何故でしょうか?
422 Audio Device errorというエラーでしょうか?
Indexってなんですか?
学習元の話者の特徴データです。VCC上では声質ではなくしゃべり方などの特徴をどれだけ再現するかの数値らしいです
@@yumeno_momonose ありがとうございます!!
キーボードの音とか雑音もボイチェンされてしまうんですがどうにかなりませんか?😊
broadcastなどのノイズ抑制ソフトを入れるとましになしますよ!
1080p表示でも文字が小さくてみずらい......マージやり方知りたいかも
ごめんなさい撮影を4kそのままでやってました💦マージですね!近々解説あげますね!
RVC使うと自分の滑舌の悪さを実感するw
緑の文字が出た後に赤い文字が出てエラーになる😢
エラー内容が分かれば記載していただけるとアドバイスできるかもです!
@@yumeno_momonose もう1回しっかり動画みてやり直したら行けますた!
@@yumeno_momonose エラーの問題は解決したのですが、gpuを選択するところでcpuしか出てきません。、何故でしょうか、、一応RTX詰んでます、
旧 rvcではRTX3050で認識してました。rvc v2ではスペック不足とかで認識しないとかあるんですか泣
グラボのドライバを最新版までアップデートしてみましょう!
急募グラボあるのにないやつ選んで微妙だった関連するやつをアンインストール・削除を行なった音がこもるようになりました😭
もう少し詳しく!Std版(directML)をインストール、削除のうえ新たにCUDA版をインストールした結果音がこもるようになったという解釈でよろしいですか?
9:23 まで行ったのですが一回関連するやつ消して再起動したら音がこもるようになりました現状何もボイチェンは入ってないです
3:03 のやつは一番下にしました
@user-pc1 音がこもるというのはスピーカーからの音orなにかのソフトに入力したマイクのどちらでしょうか?
前者です、リアルテックR?みたいな奴から出力される方です
動画ありがとうございます。この度V2を導入したのですが…サーバーで入力をNvidiaブロードキャストを通すと上手く変換されません。Clientモードだといい感じなんですが…他のPCだと上手く変換されるのですが…一応…ブロードキャストやVCClientを入れ直してみたりしたのですが上手くいかず…困っています。何卒助言よろしくお願いします。
ご視聴ありがとうございます!サーバーモードとのことですのでwindows側とVCC側でサンプリングレートが一致しているか確認してみるといいかもしれません…!
@@yumeno_momonose VCC側のサンプリングレートはどう変えるのでしょうか?V2になってから項目が消えてるようなのですが…ちなみにクライアントモードは問題ないようです。
失礼しました💦Ver2からサンプリングレートの項目はなくなりましたね…!皆様から問い合わせをいただくのですがサーバーモードでの変換トラブルが多いようです。安定版が出るまでクライアントモードでの運用を行った方がいいかもしれませんね…!
こちらのお声はい○はさんですか?
違いますよー!
早口、まいてるなー
変に凝った動画じゃないから逆に分かりやすい
もものせさんだ~!Ver2対応版のリメイク動画お疲れさまです!
いつもとても丁寧で、誰でも使えそうな分かりやすい解説ですね!
ここまで細かく解説ができる=VC Clientのことを本当に良く理解していらっしゃるのだなあと思いました。
ずっと「もものせさんボイス」かと思ったら、今回は中の人パートの方が長めなのですね。
当たり前かも知れませんが、変換前/変換後でも説明が丁寧で上手なのは変わりませんし、
地声も 変換後とはまた違った良いお声で魅力的ですよね。
話し方の細かい癖や笑い方等も含めて「どちらもしっかりもものせさんだなあ~」と感じました。
声をいろいろいじって魅力的にするのも大切ですけれど、それ以上にトークスキル大事!と思ってしまいましたw
またお時間ある時、雑談配信等楽しみにしてます!
ありがとうございます☆
今回は少し地声パート多めにしてみましたw
トーク力…間違いないですね!もものせも頑張らねば…!
凄くわかりやすかったです、cuda版導入してみたのでいろいろ試してみようと思います
わかりやすい動画ありがとうございます✨️
高評価も押しました👍
ありがとうございます!!
まってたぜぇ。。
うぇい!
有識者様何人かお聞きしたいです。
自分の地声でも違和感ない学習データを買い漁るべきか、なりたい声を買って発声の仕方を練習するべきか、どちらの方が賢明ですか?(またどちらでやられてますか)どれくらい課金するべきなのか迷っています
なかなか難しいですね💦
発声の練習をしなくてもそこそこのクオリティになるのがRVCの強みの一つだったりしますからご自身でうまく変換されるモデルを作ってみるのが一番コストがかからない方法ではありますね…!
@@yumeno_momonose 回答ありがとうございます。ゆるふわ系の女の子の1万のもの買い、地声であらゆるピッチ試したのですがサンプルようなかわいい声にはうまくいかなかったので相談させていただいた次第です。系統も変えてみたりしようと思います。
もものせとかいう余計なことせず要件サクッとまとめるの上手い女(男)
誇らしくないの?
誇ってく(*'ω'*)
ずいぶんほめてくれる🍑
動画投稿お疲れ様です!いつも参考にさせていただいてます!
そこで、もものせさんのお声について、いくつかお伺いしたいことがあります。
・元の音源として、数時間分の音源が1~2個ある形なのか、それとも1分程度の短い音源が数百個ある形なのでしょうか?
・学習の際に設定されたエポック数と、何エポック毎に保存を行っているのか?
・また、元音源はBGM付きの雑談配信(声抽出)などの形でしょうか?それとも、シチュエーションボイスのような音源でしょうか?
以上3点について、差し支えない範囲で教えていただけると嬉しいです。
ご視聴ありがとうございます!
・学習は5分程度に切り分けたデータを10個ほど用意しています
・エポック数は200程度、保存に関しては品質に影響しないため50エポック毎にしています
・元音声はBGMのない配信(映画やアニメの同時視聴)がおすすめです
こんな感じですね!
@@yumeno_momonose
返信ありがとうございます!
5分×10程度でも、かなり高い精度が出せるんですね…驚きです。
私も元音声として同時視聴の音源を探してみたのですが、メンバー限定のものが多かったり、あまり喋られていない方も多くて…。そのため、シチュエーションボイスやBGM付きの配信から音声を抽出して学習させてみました。ただ、特定の音に少しBGMが残ってしまったり、ボイチェン感が出てしまっていてやはり精度が悪かったです。
次は、良さそうな同時視聴配信をしている方を探してみようと思います!質問に丁寧に答えていただき、ありがとうございました!応援してます、頑張ってください~!
地声の問題かもだけど、変換後の声がちょっと揺れてたり、たまに違う言葉に変更されたりするんですが、設定でどうにかなりますか?後、ゲインってどういう時にいじればいいですか?
なんとなくモデルの品質が良くない気がします💦
ゲインに関してですが、入力音量が大きいと声が破綻したり、誤変換が多くなる印象があります。
出力された声がこもらないぎりぎりのラインで小さく入力してあげるときれいに変換されやすくなりますよ!
グラボがないと使えないと思うのですが、
グラボくらいの性能があると言われるRyzen 7 8600Gみたいなのでも無理ですか?
DirectMLで動作する環境になるのでワンちゃん動く可能性はあります。
ただし、GPU支援が有効になるかはこちらで環境がないのでちょっと不明ではあります💦
この動画を参考にさせてもらい、RVCセットアップ完了しました。
ですが気になる点が2つ。起動後数分してプロンプトに赤文字でエラーのような文言が出てきて長時間使用できない点と、
2点目、遅延は付き物だと思いますが性能の良いグラボを積むと遅延は感じられなくなるものなのでしょうか。
自分はRTX3060tiを積んでいます。
遅延があってコミュニケーションに遅れが出てしまいます…
返信が遅くなり失礼しました
まずエラーですが内容が分かれば記載をお願いいたします…!
遅延に関してですがこれ以上上のグレードのグラボにしても差はないと思います。品質を若干犠牲にしてCHUNK値を下げるしか現状ごまかす方法はないと思います…💦
@ Googleのカメラ翻訳で訳したところVRAM容量が不足してますよーみたいな文章が出てきました、今使ってるグラボのVRAMは8GBだった気がします。VRチャットなどで会話しようとする場合遅延と品質の優先度はどちらが高いと思いますか。
何かVCC以外にゲームなどをプレイ中に発生する感じでしょうか?
VRチャットなどリアルタイム性を重視するものの場合は遅延の少なさを優先したいですね…!
会話が発生する使用方法の場合、遅延はお互いストレスになる可能性が高いです💦
@ 色々試した結果遅延と品質のバランスが悪いと赤文字出てきました。今は何とか解決できました。返信遅くなり失礼しました
もものせさんの動画を拝見してvcclient導入してモデルも購入しちゃいました
もものせさんが自然すぎて驚いています
これはRVCによるものでしょうか。それとももものせさん本人の喋り方によるものもあるのでしょうか
あと、VCClientの各種設定値も参考に教えていただきたいです。
ご視聴ありがとうございます☆
モデルをご購入なさったんですね!ちょっとしたコツですがマイク入力音量は小さめ(VCCの標準は1ですが0.2~0.3くらい)にすると破綻しづらくなります!しゃべり方は特に工夫はしていないです…!
参考
CHUNK 256 (Ver2 21600)
EXTLA 4096
index 0.3
こんな感じで運用しています(*'ω'*)
お返事ありがとうございます
RVCでの学習方法も拝見したのですが素材が見つからずに購入しました
設定値ありがとうございます。参考にさせていただきます
投稿お疲れ様です
質問なのですがインデックスファイルありでアップロードして使用すると常時CPU使用率がものすごく上がるのですがこれは仕方ないことなのでしょうか(pthファイルのみだとほぼ変化なし).
旧バージョンではindexファイルありだと変換のタイミングだけ一時的に上がるイメージでしたが常に100%となってくると渋さを感じざるえません。。indexファイルの有無で変換後のクオリティはあまり変わらないので別にいいといえばいいのですが、最新世代のi7を使用していても必ず100%まで上がるので少し気になります。
また、クライアントモード推奨とのことですが、なにか理由があるのでしょうか。個人的にはサーバモードのほうが動作が軽くクオリティも高いよう(遅延はクライアントに比べ若干感じますが)に思えるのですが、、
コメントを見逃していました…失礼いたしました💦
index値を上げるとCPU側に処理が偏ります。ボイス変換はGPU側で処理を行うのですがindex(特徴データ)に関してはCPU側での処理のようです。特段必要がなければindexに関してはなくても問題ないと思います。
VCC Ver2に関してはサーバーモードでの不具合が多数報告されており、現状ではクライアントモードでの運用を推奨しております。マイクを認識しない、急に声が入らなくなるなど不安定な状況が発生しているようですのでVCC Ver2の場合はそういった不具合のようなものが発生する可能性があるということは事前に把握しておくとよろしいかと思います…!
@@yumeno_momonose
返信ありがとうございます。
なるほどです。。確かにボイチェンで安定感は大切ですね!
index処理もグラボでやってくれればいいのに、、笑
ちなみになのですがextra値を上げると確かに変換クオリティは上がっているのに遅延に関しては表示されている秒数に対してほとんど感じません、これはなぜかわかりますでしょうか?
そうなんですよね…w
extlaに関しては本来は乗数に応じて遅延も変動するということになっているのですがこちらでも大きな遅延は確認できてないんですよね💦なのであまり気にせず使ってもいいんじゃないかな?と思いますw
訳あってPCからVC Clientを削除したいです。
コンパネの「プログラムのアンインストールまたは変更」のページにはVC Clientらしきものは見当たらなかったのですが、Cドライブ直下に解凍したvclientのフォルダを削除するだけでよいのでしょうか?
他にも何か消すべきものはありますか?
CドライブのMMVCフォルダを削除するだけで大丈夫ですよ!
抑揚のある声や笑い声を出すと、裏返っちゃったり、「ハァ~、ファ~」みたいな掠れた感じを防ぐ方法はありますか?
なかなか難しかったりします💦
元の話者の笑い方や声の出し方にそれなりに依存するため、その発声の仕方になるべく合わせるか特徴の似ている方から学習したモデルを使うとかなり自然になる印象です…!
discordで通話すると
ザーという雑音やノイズが入ることがあるのですが、雑音やノイズを無くすことはできますか
何が原因なのかですね💦
discordでのみ発生するのかが分かれば問題の切り分けができると思いますがいかがでしょうか?
とてもきれいな変換で尊敬です!
もし良かったら教えて下さい。
モデルの作成について使用されている事前学習モデルがなにか教えていただけないでしょうか?
当方、Apllioを用いてKLM4.1を使用していますが喋り言葉の変換でここまでの精度が出ないように感じております。
また今回の動画のような収録にOBSなどをお使いかと思っていますが、
VCClientの変換音声にたいして何かしらのプラグイン処理(ノイズ処理やイコライザー等)を実施されていますでしょうか?
もし実施されている場合はどのプラグインでなんの処理を実施されているのか参考にさせていただけると嬉しいです。
以上、お手漉きのときなどに教えていただけると嬉しいです。
おほめいただき光栄でございます(*'ω'*)
事前モデルはRVC1006Nvidiaに最初から入っている(最初から選択されている)モデルです。
普段はOBSを使用しておりますが、特にエフェクトやプラグインなどは使用せず、VCCからの音声をそのまま配信や録画に出力しております…!
@@yumeno_momonose ありがとうございます!それでこのレベルに達せられるんですね!
調声頑張ってみます。
初回起動時変換がうまくいかず、一度閉じて再起動したのはいいんですが、スタート ストップ パススルーのボタンが消えてしまったのですが、再インストールした方が賢明ですかね、、?
おそらく解凍のところから再度構築した方が話は早いと思われます…💦
お世話になってます。
ver2でも2pcで動かすことは可能でしょうか?
私の環境だとうまく動かなかったです。
VCC2でも2PC運用は可能ですよ!
httpsを開くとボイチェンの窓が開くのですがそれはそのまま放置してcmdにURLが出ているはずなのでそれをほかのPCで開いてみてください
@@yumeno_momonose ありがとうございますっ! 動きましたー感謝っ!
よかった!よきボイチェンライフを🍑
Serverモードにして開始を押して停止を押すと
422[Unprocessable Entity]:
Recording failed. Please check
audio device setting and start
converting.
とでて変換できません~💦
サーバーモードに何か不具合ある気がする💦
クライアントモードでの運用推奨…!
@@yumeno_momonose それがクライアントに戻せないんですぅ〜💦
いったん削除して環境構築しなおし!
すみません質問なのですが声が入力されません対処法などってありますか?
状況を確認したく思います…!
・使用しているPCに搭載されているGPU
・VCCはCUDA or Std
こちらの情報をお教えいただけますか?
@yumeno_momonose GPUはRadeon7600でVCCはStdを使ってます
RX7600ですかね?
GPUでのボイス変換支援を効かせるにはモデルをonnxへ変換(VCC上にボタンがあります)、F0Datの項目をrmvpe_onnxにしていただくと変換されると思います。その後clientモード、inputにマイク、monitorに普段音を聞いているデバイスを指定して声が返ってくるか確認してみてください
できました!
ありがとうございます!
初めまして
動画通り終わって
設定を変えたくて入ろうとしたら何処から入ればば良いのか分からなくなり
最初からやったのですが詳細から情報をクリックして実行をだして入っても小窓が消えてはいれないのですが
どうすれば良いでしょうか?🥲よろしくお願いします
2度目の起動もstart_httpから起動していますか?
小窓が消えるとのことですがcmd(黒い画面)でしょうか?
@@yumeno_momonose再設定を変えたくて8:55 ここをやり直したのですが出て来なくて設定画面まで入れなくて困ってます。
8:55というと黒い画面が表示されてダウンロードが始まるところかと思うのですが、黒い画面自体が立ち上がらないという認識でよろしいでしょうか?
その場合はVisualStudioをインストール→その中のpython開発環境というものをインストール後再起動を行ってみてください…!
ver1と比べて何が変わったんですか?
onnxモデル使用時の負荷が軽くなったこと、CUDA版とDirectML版のUIが統一されわかりやすくなったことが大きな変更点かと思います…!
わかりやすい動画ありがとうございます
4つ程質問をよろしいでしょうか
1. 旧バージョンのRVCは削除してよいのでしょうか?
2. モニターのループバックのくだりがよくわかりませんでした
3. ボイチェンを利用するにはオーディオインターフェース(機械)が必須でしょうか?
4. ボイチェンの起動は毎回start_http.batから行うのでしょうか?
教えてくださると幸いです
ご視聴ありがとうございます!
1、VCC2での運用で問題なければ削除OKです
2、VCCのAudioの項目にmonitorという項目があります。これは変換後の声を聴くためのものであり不要であればnoneにしていただいて問題ありません
3、USBタイプのマイクなど、音声を入力できる環境があればOKです
4、起動は毎回start_httpからになります
以上が簡単な回答となります!もし不明点があれば遠慮なくコメントください!
@@yumeno_momonose ありがとうございます!
クライアントモードで使用のマイクと仮想オーディオデバイスを選ぶ事ができないのですが対処法分かりますか?
一度windowsの再起動を行ってみてください。
それでも選択不可能な場合は再解凍(以前に解凍したフォルダを削除したうえで)して環境を構築しなおしてみてください…!
すいません、色々といじっていたらできました。使ってみて以前のバージョンと比べて不安定な感じを受けるのですが自分だけでしょうか?
一度安定してしまえば問題ないのですが、初回起動時に若干の不安定さが残っているように思います💦
ただし、負荷の面ではVer2が少し有利に思いますね…!
解説ありがとうございます。手順通りに解凍して、start_http_with_ngrokを押したのですが、input ngrok token:という一文が表示されるだけで、ダウンロードが起こりませんでした。
ngrokではなく、start_httpを実行してください!
すみませんコメント失礼します
編集の所でアップロードしようと
してmodel(pth)とindexを
選択してアップロードを押すと
49%ぐらいの所で
インポートに失敗しました
モデルconfigと出てきて
アップロードができなくて
困ってます。
説明下手で申し訳ないです。
セキュリティソフトなどが邪魔をしている可能性はありませんか?
boothなどで無料配布されているモデルなどを用意してアップロードしてみる→問題なければモデル自体に問題があると思います
@@yumeno_momonose 返信頂きありがとうございます。なんとか解決はできました!
追加で申し訳ないです。声が繰り返し聞こえてきちゃったり雑音が入っちゃうみたいなんですが
解決方ってありますか?BOOTHの所で
高品質の物を購入すればなくなりますかね?
音声の出力がスピーカーなどからされていてそれをマイクが拾っている可能性はないですか?
失礼します
先ほどvc client2をインストールし、以前のvc clientと同じように2pcで使用しようとしたのですが、なぜかサブPCの方のGPUが使用されず、CPUの方が使用されてしまいます
設定画面でも、間違いなくGPUを選択しているのですが、対処法を知っている方がいればお教えいただければ幸いです、、、
VCC Ver1系では問題なくGPU支援が効いていた感じでしょうか?
もしかするとドライバの更新で解決するかもです…!
@@yumeno_momonose
1では問題なく動いていました!
ドライバの更新ですか…
やってみます!
返信ありがとうございます!
@@yumeno_momonose
更新しても解決しませんでしたね、、
何が原因なのやらw
VCクライアントでボイチェンされた声が小さくなってしまいます。音を上げるにはどうしたらいいですか?
VCCの右上、OutPutの項目を少し上げてあげるといかがでしょうか?
なんで変換後もこんなに滑舌がいいんですか?
モデルの品質によると思いますよ!
2回目以降の起動の仕方がわかりません!
初回と同様、start_httpから起動しましょう!
お疲れ様です!お久しぶりです!動画ありがとうございます。Ver2が出たとのことですがVer1からの移行をする大きな音質の変化やその他メリットってありますか?Ver1をある程度設定済みなのでさほど変わらないならこのままVer1で行こうかなと思ってます。
お久しぶりです!onnxモデルを使用した際の負荷が軽くなった印象を受けました。
GPU負荷が高い状態でも安定しやすくなったような感じがしますね!
なるほど〜!印象では自分の使用環境ではさほど変化は無さそうです。返信ありがとうございました😊またライブ行きます(^^)
AIボイチェン界隈でも本当に桁違いの出来…
脳みそが破壊された後に性癖が再誕されたわ…
start_httpで子マントプロンプトが開いた状態でずっとダウンロードされないです...対処法とかありますか?
ウイルス対策ソフト(ウイルスバスター、ノートン)などが動いている可能性はありますか?
オフにしたら出来ました!
ありがとうございます!!
地声もキレイですね!普通に女の子の声だせそう
ありがとうございます(*'ω'*)
女の子の声は…むずかしいですよね…w
やっぱりこういう時にRadeonはちょっと使いづらかったりするんですかねぇ
モデルをonnxへ変換するという工程が発生しますがUIもCUDA版と同じになりましたし使いづらさは減ったと思います!
@@yumeno_momonose なるほど〜ただモデル作成の学習がRadeonだと出来ないんでしたっけ…
@@rice_cake-i6o そうなんです…windowsでの学習はCUDAを使用するためNvidia系GPU必須で💦Google colabを使用しての学習は可能なのでそういったサービスを利用する手もありますね!
このアプリを起動するときはどう起動し直したら良いんでしょうか
毎回start_httpから立ち上げる形になります!
@@yumeno_momonose ありがとうございます!
Start_httpはデスクトップ上に置くと起動しなかったので解凍したファイルをCドライブ上において起動しないとダメって感じなんですね。
Yamahaのアプリの使い方の動画もアップロードされているんでしょうか?
ショートカットとしてデスクトップに配置は可能だったはずです!
syncroomはインストール後に触ることはないですね!syncroomに付属されている仮想オーディオケーブル機能を使用しているだけなのでインストールが完了していればOKという感じです
@@yumeno_momonose ご丁寧にありがとうございます。ショートカットではなく、cドライブから切り取って貼ってたからダメだったみたいです。
上手くできました!これからver更新等あると思うので参考に動画拝見させていただきます。動画投稿応援しています!
サーバ入出力テストをすると422のエラーがでます。
何故でしょうか?
422 Audio Device errorというエラーでしょうか?
Indexってなんですか?
学習元の話者の特徴データです。
VCC上では声質ではなくしゃべり方などの特徴をどれだけ再現するかの数値らしいです
@@yumeno_momonose ありがとうございます!!
キーボードの音とか雑音もボイチェンされてしまうんですがどうにかなりませんか?😊
broadcastなどのノイズ抑制ソフトを入れるとましになしますよ!
1080p表示でも文字が小さくてみずらい......マージやり方知りたいかも
ごめんなさい撮影を4kそのままでやってました💦
マージですね!近々解説あげますね!
RVC使うと自分の滑舌の悪さを実感するw
緑の文字が出た後に赤い文字が出てエラーになる😢
エラー内容が分かれば記載していただけるとアドバイスできるかもです!
@@yumeno_momonose もう1回しっかり動画みてやり直したら行けますた!
@@yumeno_momonose エラーの問題は解決したのですが、gpuを選択するところでcpuしか出てきません。、何故でしょうか、、一応RTX詰んでます、
旧 rvcではRTX3050で認識してました。
rvc v2ではスペック不足とかで認識しないとかあるんですか泣
グラボのドライバを最新版までアップデートしてみましょう!
急募
グラボあるのにないやつ選んで微妙だった
関連するやつをアンインストール・削除を行なった
音がこもるようになりました😭
もう少し詳しく!
Std版(directML)をインストール、削除のうえ新たにCUDA版をインストールした結果音がこもるようになったという解釈でよろしいですか?
9:23 まで行ったのですが
一回関連するやつ消して
再起動したら音がこもるようになりました
現状何もボイチェンは入ってないです
3:03 のやつは一番下にしました
@user-pc1 音がこもるというのはスピーカーからの音orなにかのソフトに入力したマイクのどちらでしょうか?
前者です、リアルテックR?みたいな奴から出力される方です
動画ありがとうございます。
この度V2を導入したのですが…
サーバーで入力をNvidiaブロードキャストを通すと上手く変換されません。
Clientモードだといい感じなんですが…
他のPCだと上手く変換されるのですが…
一応…ブロードキャストやVCClientを入れ直してみたりしたのですが上手くいかず…
困っています。
何卒助言よろしくお願いします。
ご視聴ありがとうございます!
サーバーモードとのことですのでwindows側とVCC側でサンプリングレートが一致しているか確認してみるといいかもしれません…!
@@yumeno_momonose
VCC側のサンプリングレートはどう変えるのでしょうか?
V2になってから項目が消えてるようなのですが…
ちなみにクライアントモードは問題ないようです。
失礼しました💦Ver2からサンプリングレートの項目はなくなりましたね…!
皆様から問い合わせをいただくのですがサーバーモードでの変換トラブルが多いようです。安定版が出るまでクライアントモードでの運用を行った方がいいかもしれませんね…!
こちらのお声はい○はさんですか?
違いますよー!
早口、まいてるなー