【無料】感情表現も多言語もできる最新音声AI「Bert-VITS2」の導入方法~使い方【2023.12月版】

Поделиться
HTML-код
  • Опубликовано: 13 янв 2025

Комментарии • 45

  • @yuupro
    @yuupro  Год назад +14

    動画内で説明を忘れましたが「EasyBertVits2」を起動する際にウィルスチェックソフトが有効だとインストールに失敗する場合があるようです。もし失敗した場合はインストールのときだけ無効にしてみてください。
    あと私も使いはじめたばかりなのでトラブルや技術的なご質問にはお答えできないと思います...

  • @ライオンサイレインティング

    多言語対応してるのはすごい強いですね。
    最近の合成音声技術の進化速度がヤバすぎる……!!

  • @ribon-30fps
    @ribon-30fps Год назад +6

    いやぁ素晴らしいですありがとうございます。関西弁と博多弁めっちゃ喋らせてみます

  • @rei6477
    @rei6477 Год назад +4

    有意義な動画感謝です。中国人に10個くらい中国語のサンプル聞かせたら、驚いたことに、まともなのは1つしかないって言われました。その一つも自然ではないと言われました。もしかしたら日本語が一番クオリティいいかもしれません。英語は言うまでもなく11 labとかのほうが圧倒的に自然でこれは非ネイティブの訛りと発音の間違いがありすぎです。新たな技術の開発のことを動画で触れられていましたが、今後に期待したいです。

  • @MIYABI-rh2vp
    @MIYABI-rh2vp Год назад +6

    本題と関係ないけど、「○○で、○○」の箇所の「で」の部分が可愛すぎない?
    惚れそう惚れた

  • @Yuubarium
    @Yuubarium Год назад +8

    アクセントが中国語っぽくになっているのはベースモデルが中国語だからでしょうね。so-vits-svcの初期に色々やってましたが日本語のベースモデルから学習させてる例を見たことがなく、フリーの日本語ベースモデルで試してみてもうまく学習できずと、どうすればいいのやら... にしてもずいぶんと自然になりましたね

    • @yuupro
      @yuupro  Год назад +1

      なるほど、やはりベースモデルが関係してそうなのですね...!

  • @tomo-hom
    @tomo-hom Год назад +3

    凄いシステムっぽいですね
    手元には数年前のお古のノートとCATV環境のみなので、現在の導入は現実的ではないかな
    (数ヶ月前に動画編集用のPCがローンを残して昇天されましたw→ついでに光回線も解約
    環境が復活したら導入してみたいですね
    説明動画ありがとうございます

  • @isidi7
    @isidi7 Год назад +6

    声調だけではなく翻訳までAIがしてくれるとは
    かなり凄いものが出ましたね

    • @yuupro
      @yuupro  Год назад +4

      あっ、もっと詳しく説明すればよかったですが言語モードを切り替えてその言語のテキストを入力すると読んでくれる感じです

  • @ponko-2
    @ponko-2 Год назад +12

    StableDiffusionの声バージョンみたいですね。
    にしても文章から感情を察して出力するなんて凄い技術…アメリカが中国に対してGPUの輸出を渋るのが分かった気がします。

    • @yuupro
      @yuupro  Год назад +10

      どうやらGoogleが作った自然言語処理モデル「Bert」と韓国で研究されている「VITS2」という最新の音声合成技術が融合したものらしいです。
      中国のコミュニティを覗きましたがRTX4090やA100がかなり貢献してるようです... 私もほしい...

  • @pinocchiify
    @pinocchiify Год назад +2

    なにこれすごすぎない?

  • @catpen1705
    @catpen1705 10 месяцев назад

    これ手動でどういう感情か指定できるんじゃなくて「悲しそうなセリフ」「怒ったようなセリフ」入れた時にその感情っぽくなるのね
    これだと辛いのに気丈に振る舞ってるとか笑い堪えてるとかそういう感情は無理か

  • @m.mishima9485
    @m.mishima9485 Год назад +6

    日本語なのに、アクセントが中国語になっている印象を受けました。
    中国人が喋っている日本語の印象です。
    音声モデルにもよるみたいですね。

    • @yuupro
      @yuupro  Год назад +2

      仕組みを理解しきれてないですが言語のベースとなる学習モデルのファイルがあったので、それが影響してるのかもしれませんね。
      生成にバラツキをだせるので何回かやり直すと自然な感じになったりもします

  • @Yu2-Graphics
    @Yu2-Graphics Год назад +2

    すごく勉強になりました!
    ちなみに動画のフォントは何を使用されているのでしょうか?
    とても見やすかったです!

  • @ZUSI_ILovekalinwithnozima
    @ZUSI_ILovekalinwithnozima Год назад +3

    最初の声ホワイトカルに似てるな 0:43

  • @菅原政雄-z7p
    @菅原政雄-z7p Год назад +6

    AMDのGPUが認識しないとのことですが、Cudaを使ってるようですので、恐らくNVIDIA以外のGPUはサポート外と思われます。
    それにしても18.1GBとは。

  • @ticky1812
    @ticky1812 11 месяцев назад

    「声」の学習データの権利関係はわかるのですが、「テキスト→音声の読みや抑揚の学習データ」の権利処理を、BertVits2シリーズではどうしているのか気になりました。
    BertVits2シリーズは配布物に「テキスト→音声の読みや抑揚」を学習させたものを含めて配布しているように見受けられます

  • @SCPverFPSgamer
    @SCPverFPSgamer 7 месяцев назад

    so-vits-svc-forkも紹介して欲しいです

  • @飛翔のキーホルダー
    @飛翔のキーホルダー Год назад +4

    ドラえもんの「ほんやくコンニャク」みたいですね。

    • @yuupro
      @yuupro  Год назад +3

      まさにそれですね!さらに発展すればどんな国の言葉でも話すことができるかもですね

    • @yuupro
      @yuupro  Год назад +3

      すみません意味をちょっと勘違いしてました...
      テキストの翻訳まではしてくれないので言語モードを切り替えて対象言語を入力すると喋ってくれる感じです
      動画内でもっと詳しくご説明すればよかったです...

    • @飛翔のキーホルダー
      @飛翔のキーホルダー Год назад +1

      @@yuupro
      日本語で入力して英語や中国語の音声が合成されたらバケモノソフトだと思ったのですが、英語の音声を合成させるには英語で入力するのですね。

  • @hiratchy_mainchannel
    @hiratchy_mainchannel Год назад +8

    ちうごく発ってのが引っかかる…
    やはりどこへ行ってもNVIDIA以外のGPUには人権が無いのかなぁ(´・ω・`)

    • @yuupro
      @yuupro  Год назад +3

      コスパならAMDなんですけどね...

    • @pcm298
      @pcm298 Год назад +1

      Steamが別のOS(Linux)とかで動くように
      CUDAの互換レイヤーが作れればなー。

  • @otokuwanwan
    @otokuwanwan 8 месяцев назад +1

    ゆうぷろさんの動画は肉声ですか?

  • @tdnnnn2146
    @tdnnnn2146 10 месяцев назад

    ん~現在モデルの公開がされてないのかな?ダウンロードできなくなってますね・・・困った悲しい。

    • @yuupro
      @yuupro  10 месяцев назад

      この動画の公開後にいろいろと動きがあり、現在は「Style-Bert-VITS2」というソフトが主流になりつつあります。
      導入方法も簡単で4人分の音声もデフォルトで使えるのでご興味があったら試してみてください
      ▼リリースページ
      github.com/litagin02/Style-Bert-VITS2?tab=readme-ov-file
      ▼開発者さんのチュートリアル動画
      ruclips.net/video/aTUSzgDl1iY/видео.html

    • @tdnnnn2146
      @tdnnnn2146 10 месяцев назад

      @@yuupro お返事ありがとうございます。欲しかったのはモデルの方だったので・・💦

    • @yuupro
      @yuupro  10 месяцев назад +1

      動画内で紹介している音声モデルは現在非公開とされていて、現状ではBOOTHでいくつか提供されているのみですね(「VITS2」で検索すれば出てきます)
      無料提供されているものもありますが有料がメインとなっているようです

    • @tdnnnn2146
      @tdnnnn2146 10 месяцев назад

      @@yuupro ありがとうございます。

  • @t4u2u
    @t4u2u Год назад +2

    言語の壁が崩れる音が聞こえました
    既存の話声取り扱い業者はビビらずちゃんと適応してほしいもんですね

  • @Ki0-0
    @Ki0-0 Год назад +6

    ボイボとかボイピとかとは違って画像AIみたいな生成AIって感じかな〜って個人的に思うな〜

  • @500youtuber7
    @500youtuber7 Год назад

    Download-litagin-bert_vits2が見つからないです…

    • @yuupro
      @yuupro  Год назад +1

      もしうまくできないようでしたら最近「Style-Bert-VITS2」という新たなツールが公開されたのでおためしください。
      github.com/litagin02/Style-Bert-VITS2
      導入方法はEasyBertVits2とほぼ同じなので説明を見ながら作業すれば簡単にできると思います

    • @500youtuber7
      @500youtuber7 Год назад

      @@yuupro
      ありがとうございます!試してみます!

    • @500youtuber7
      @500youtuber7 Год назад

      起動できました!
      しかし今度は、Web UIを一旦閉じた後また次回起動する方法がわからないです…
      (初回はもちろん、ダウンロード後の自動アクセス)

    • @yuupro
      @yuupro  Год назад +1

      配布ページにも書いてありますが「App.bat」をダブルクリックで起動できないでしょうか?
      専門知識がないので具体的なアドバイスはできませんが、配布ページにひととおりの方法が書いてあるので参考になると思います