Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
12秒に近い音声って連結して12秒になるような調整でもいいんだろうか連結がだめだとJVSやJSUTは12秒も無いから今のデータセット大半だめってなりそうな
連結して12秒に近い音声(12秒以上になると使用できない)にしても大丈夫ですが、連結する音声同士はなるべく関係性があるものの方が学習後の結果が良くなりますね。(例)悲しい+喜びの感情の音声を連結→台詞の途中で感情表現が不安定になる場合が出てくる本来の会話の流れに則さない台詞を連結→台詞の途中でイントネーションや感情表現が不安定になる場合が出てくる本来の会話の流れの台詞を連結→安定した感情orイントネーションの合成音声になる
12秒に近い音声って連結して12秒になるような調整でもいいんだろうか
連結がだめだとJVSやJSUTは12秒も無いから今のデータセット大半だめってなりそうな
連結して12秒に近い音声(12秒以上になると使用できない)にしても大丈夫ですが、
連結する音声同士はなるべく関係性があるものの方が学習後の結果が良くなりますね。
(例)
悲しい+喜びの感情の音声を連結
→台詞の途中で感情表現が不安定になる場合が出てくる
本来の会話の流れに則さない台詞を連結
→台詞の途中でイントネーションや感情表現が不安定になる場合が出てくる
本来の会話の流れの台詞を連結
→安定した感情orイントネーションの合成音声になる