Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
動画内で説明を忘れましたが「EasyBertVits2」を起動する際にウィルスチェックソフトが有効だとインストールに失敗する場合があるようです。もし失敗した場合はインストールのときだけ無効にしてみてください。あと私も使いはじめたばかりなのでトラブルや技術的なご質問にはお答えできないと思います...
多言語対応してるのはすごい強いですね。最近の合成音声技術の進化速度がヤバすぎる……!!
いやぁ素晴らしいですありがとうございます。関西弁と博多弁めっちゃ喋らせてみます
有意義な動画感謝です。中国人に10個くらい中国語のサンプル聞かせたら、驚いたことに、まともなのは1つしかないって言われました。その一つも自然ではないと言われました。もしかしたら日本語が一番クオリティいいかもしれません。英語は言うまでもなく11 labとかのほうが圧倒的に自然でこれは非ネイティブの訛りと発音の間違いがありすぎです。新たな技術の開発のことを動画で触れられていましたが、今後に期待したいです。
本題と関係ないけど、「○○で、○○」の箇所の「で」の部分が可愛すぎない?惚れそう惚れた
アクセントが中国語っぽくになっているのはベースモデルが中国語だからでしょうね。so-vits-svcの初期に色々やってましたが日本語のベースモデルから学習させてる例を見たことがなく、フリーの日本語ベースモデルで試してみてもうまく学習できずと、どうすればいいのやら... にしてもずいぶんと自然になりましたね
なるほど、やはりベースモデルが関係してそうなのですね...!
凄いシステムっぽいですね手元には数年前のお古のノートとCATV環境のみなので、現在の導入は現実的ではないかな(数ヶ月前に動画編集用のPCがローンを残して昇天されましたw→ついでに光回線も解約環境が復活したら導入してみたいですね説明動画ありがとうございます
声調だけではなく翻訳までAIがしてくれるとはかなり凄いものが出ましたね
あっ、もっと詳しく説明すればよかったですが言語モードを切り替えてその言語のテキストを入力すると読んでくれる感じです
StableDiffusionの声バージョンみたいですね。にしても文章から感情を察して出力するなんて凄い技術…アメリカが中国に対してGPUの輸出を渋るのが分かった気がします。
どうやらGoogleが作った自然言語処理モデル「Bert」と韓国で研究されている「VITS2」という最新の音声合成技術が融合したものらしいです。中国のコミュニティを覗きましたがRTX4090やA100がかなり貢献してるようです... 私もほしい...
なにこれすごすぎない?
これ手動でどういう感情か指定できるんじゃなくて「悲しそうなセリフ」「怒ったようなセリフ」入れた時にその感情っぽくなるのねこれだと辛いのに気丈に振る舞ってるとか笑い堪えてるとかそういう感情は無理か
日本語なのに、アクセントが中国語になっている印象を受けました。中国人が喋っている日本語の印象です。音声モデルにもよるみたいですね。
仕組みを理解しきれてないですが言語のベースとなる学習モデルのファイルがあったので、それが影響してるのかもしれませんね。生成にバラツキをだせるので何回かやり直すと自然な感じになったりもします
すごく勉強になりました!ちなみに動画のフォントは何を使用されているのでしょうか?とても見やすかったです!
最初の声ホワイトカルに似てるな 0:43
AMDのGPUが認識しないとのことですが、Cudaを使ってるようですので、恐らくNVIDIA以外のGPUはサポート外と思われます。それにしても18.1GBとは。
「声」の学習データの権利関係はわかるのですが、「テキスト→音声の読みや抑揚の学習データ」の権利処理を、BertVits2シリーズではどうしているのか気になりました。BertVits2シリーズは配布物に「テキスト→音声の読みや抑揚」を学習させたものを含めて配布しているように見受けられます
so-vits-svc-forkも紹介して欲しいです
ドラえもんの「ほんやくコンニャク」みたいですね。
まさにそれですね!さらに発展すればどんな国の言葉でも話すことができるかもですね
すみません意味をちょっと勘違いしてました...テキストの翻訳まではしてくれないので言語モードを切り替えて対象言語を入力すると喋ってくれる感じです動画内でもっと詳しくご説明すればよかったです...
@@yuupro 日本語で入力して英語や中国語の音声が合成されたらバケモノソフトだと思ったのですが、英語の音声を合成させるには英語で入力するのですね。
ちうごく発ってのが引っかかる…やはりどこへ行ってもNVIDIA以外のGPUには人権が無いのかなぁ(´・ω・`)
コスパならAMDなんですけどね...
Steamが別のOS(Linux)とかで動くようにCUDAの互換レイヤーが作れればなー。
ゆうぷろさんの動画は肉声ですか?
ん~現在モデルの公開がされてないのかな?ダウンロードできなくなってますね・・・困った悲しい。
この動画の公開後にいろいろと動きがあり、現在は「Style-Bert-VITS2」というソフトが主流になりつつあります。導入方法も簡単で4人分の音声もデフォルトで使えるのでご興味があったら試してみてください▼リリースページgithub.com/litagin02/Style-Bert-VITS2?tab=readme-ov-file▼開発者さんのチュートリアル動画ruclips.net/video/aTUSzgDl1iY/видео.html
@@yuupro お返事ありがとうございます。欲しかったのはモデルの方だったので・・💦
動画内で紹介している音声モデルは現在非公開とされていて、現状ではBOOTHでいくつか提供されているのみですね(「VITS2」で検索すれば出てきます)無料提供されているものもありますが有料がメインとなっているようです
@@yuupro ありがとうございます。
言語の壁が崩れる音が聞こえました既存の話声取り扱い業者はビビらずちゃんと適応してほしいもんですね
ボイボとかボイピとかとは違って画像AIみたいな生成AIって感じかな〜って個人的に思うな〜
Download-litagin-bert_vits2が見つからないです…
もしうまくできないようでしたら最近「Style-Bert-VITS2」という新たなツールが公開されたのでおためしください。github.com/litagin02/Style-Bert-VITS2導入方法はEasyBertVits2とほぼ同じなので説明を見ながら作業すれば簡単にできると思います
@@yuuproありがとうございます!試してみます!
起動できました!しかし今度は、Web UIを一旦閉じた後また次回起動する方法がわからないです…(初回はもちろん、ダウンロード後の自動アクセス)
配布ページにも書いてありますが「App.bat」をダブルクリックで起動できないでしょうか?専門知識がないので具体的なアドバイスはできませんが、配布ページにひととおりの方法が書いてあるので参考になると思います
動画内で説明を忘れましたが「EasyBertVits2」を起動する際にウィルスチェックソフトが有効だとインストールに失敗する場合があるようです。もし失敗した場合はインストールのときだけ無効にしてみてください。
あと私も使いはじめたばかりなのでトラブルや技術的なご質問にはお答えできないと思います...
多言語対応してるのはすごい強いですね。
最近の合成音声技術の進化速度がヤバすぎる……!!
いやぁ素晴らしいですありがとうございます。関西弁と博多弁めっちゃ喋らせてみます
有意義な動画感謝です。中国人に10個くらい中国語のサンプル聞かせたら、驚いたことに、まともなのは1つしかないって言われました。その一つも自然ではないと言われました。もしかしたら日本語が一番クオリティいいかもしれません。英語は言うまでもなく11 labとかのほうが圧倒的に自然でこれは非ネイティブの訛りと発音の間違いがありすぎです。新たな技術の開発のことを動画で触れられていましたが、今後に期待したいです。
本題と関係ないけど、「○○で、○○」の箇所の「で」の部分が可愛すぎない?
惚れそう惚れた
アクセントが中国語っぽくになっているのはベースモデルが中国語だからでしょうね。so-vits-svcの初期に色々やってましたが日本語のベースモデルから学習させてる例を見たことがなく、フリーの日本語ベースモデルで試してみてもうまく学習できずと、どうすればいいのやら... にしてもずいぶんと自然になりましたね
なるほど、やはりベースモデルが関係してそうなのですね...!
凄いシステムっぽいですね
手元には数年前のお古のノートとCATV環境のみなので、現在の導入は現実的ではないかな
(数ヶ月前に動画編集用のPCがローンを残して昇天されましたw→ついでに光回線も解約
環境が復活したら導入してみたいですね
説明動画ありがとうございます
声調だけではなく翻訳までAIがしてくれるとは
かなり凄いものが出ましたね
あっ、もっと詳しく説明すればよかったですが言語モードを切り替えてその言語のテキストを入力すると読んでくれる感じです
StableDiffusionの声バージョンみたいですね。
にしても文章から感情を察して出力するなんて凄い技術…アメリカが中国に対してGPUの輸出を渋るのが分かった気がします。
どうやらGoogleが作った自然言語処理モデル「Bert」と韓国で研究されている「VITS2」という最新の音声合成技術が融合したものらしいです。
中国のコミュニティを覗きましたがRTX4090やA100がかなり貢献してるようです... 私もほしい...
なにこれすごすぎない?
これ手動でどういう感情か指定できるんじゃなくて「悲しそうなセリフ」「怒ったようなセリフ」入れた時にその感情っぽくなるのね
これだと辛いのに気丈に振る舞ってるとか笑い堪えてるとかそういう感情は無理か
日本語なのに、アクセントが中国語になっている印象を受けました。
中国人が喋っている日本語の印象です。
音声モデルにもよるみたいですね。
仕組みを理解しきれてないですが言語のベースとなる学習モデルのファイルがあったので、それが影響してるのかもしれませんね。
生成にバラツキをだせるので何回かやり直すと自然な感じになったりもします
すごく勉強になりました!
ちなみに動画のフォントは何を使用されているのでしょうか?
とても見やすかったです!
最初の声ホワイトカルに似てるな 0:43
AMDのGPUが認識しないとのことですが、Cudaを使ってるようですので、恐らくNVIDIA以外のGPUはサポート外と思われます。
それにしても18.1GBとは。
「声」の学習データの権利関係はわかるのですが、「テキスト→音声の読みや抑揚の学習データ」の権利処理を、BertVits2シリーズではどうしているのか気になりました。
BertVits2シリーズは配布物に「テキスト→音声の読みや抑揚」を学習させたものを含めて配布しているように見受けられます
so-vits-svc-forkも紹介して欲しいです
ドラえもんの「ほんやくコンニャク」みたいですね。
まさにそれですね!さらに発展すればどんな国の言葉でも話すことができるかもですね
すみません意味をちょっと勘違いしてました...
テキストの翻訳まではしてくれないので言語モードを切り替えて対象言語を入力すると喋ってくれる感じです
動画内でもっと詳しくご説明すればよかったです...
@@yuupro
日本語で入力して英語や中国語の音声が合成されたらバケモノソフトだと思ったのですが、英語の音声を合成させるには英語で入力するのですね。
ちうごく発ってのが引っかかる…
やはりどこへ行ってもNVIDIA以外のGPUには人権が無いのかなぁ(´・ω・`)
コスパならAMDなんですけどね...
Steamが別のOS(Linux)とかで動くように
CUDAの互換レイヤーが作れればなー。
ゆうぷろさんの動画は肉声ですか?
ん~現在モデルの公開がされてないのかな?ダウンロードできなくなってますね・・・困った悲しい。
この動画の公開後にいろいろと動きがあり、現在は「Style-Bert-VITS2」というソフトが主流になりつつあります。
導入方法も簡単で4人分の音声もデフォルトで使えるのでご興味があったら試してみてください
▼リリースページ
github.com/litagin02/Style-Bert-VITS2?tab=readme-ov-file
▼開発者さんのチュートリアル動画
ruclips.net/video/aTUSzgDl1iY/видео.html
@@yuupro お返事ありがとうございます。欲しかったのはモデルの方だったので・・💦
動画内で紹介している音声モデルは現在非公開とされていて、現状ではBOOTHでいくつか提供されているのみですね(「VITS2」で検索すれば出てきます)
無料提供されているものもありますが有料がメインとなっているようです
@@yuupro ありがとうございます。
言語の壁が崩れる音が聞こえました
既存の話声取り扱い業者はビビらずちゃんと適応してほしいもんですね
ボイボとかボイピとかとは違って画像AIみたいな生成AIって感じかな〜って個人的に思うな〜
Download-litagin-bert_vits2が見つからないです…
もしうまくできないようでしたら最近「Style-Bert-VITS2」という新たなツールが公開されたのでおためしください。
github.com/litagin02/Style-Bert-VITS2
導入方法はEasyBertVits2とほぼ同じなので説明を見ながら作業すれば簡単にできると思います
@@yuupro
ありがとうございます!試してみます!
起動できました!
しかし今度は、Web UIを一旦閉じた後また次回起動する方法がわからないです…
(初回はもちろん、ダウンロード後の自動アクセス)
配布ページにも書いてありますが「App.bat」をダブルクリックで起動できないでしょうか?
専門知識がないので具体的なアドバイスはできませんが、配布ページにひととおりの方法が書いてあるので参考になると思います