Bert-VITS2に使う学習データについて話すつくよみちゃん。

Поделиться
HTML-код
  • Опубликовано: 8 фев 2025

Комментарии • 2

  • @クリーブランド-e5l
    @クリーブランド-e5l Год назад

    12秒に近い音声って連結して12秒になるような調整でもいいんだろうか
    連結がだめだとJVSやJSUTは12秒も無いから今のデータセット大半だめってなりそうな

    • @TsukuyomiChanTTS
      @TsukuyomiChanTTS  10 месяцев назад +3

      連結して12秒に近い音声(12秒以上になると使用できない)にしても大丈夫ですが、
      連結する音声同士はなるべく関係性があるものの方が学習後の結果が良くなりますね。
      (例)
      悲しい+喜びの感情の音声を連結
      →台詞の途中で感情表現が不安定になる場合が出てくる
      本来の会話の流れに則さない台詞を連結
      →台詞の途中でイントネーションや感情表現が不安定になる場合が出てくる
      本来の会話の流れの台詞を連結
      →安定した感情orイントネーションの合成音声になる