AI Сидорович | Stalker Voices - RVC v2 голосовая модель | Примеры возможностей

Поделиться
HTML-код
  • Опубликовано: 31 янв 2025

Комментарии • 24

  • @Warlock7OO
    @Warlock7OO  Год назад +6

    Пока что RVC v.2 плохо справляется с озвучиванием русского языка, преимущественно это связано с тем, что в качестве предобученной базы используется дата-сет, основанной на англоговорящих образцах речи.
    Модель создал еще месяц назад, но вспомнил о ней лишь сейчас. Вы можете сравнить ее с моделью, имеющейся на weight-gg. В своей подчистил шумы, вздохи-выдохи и удалены фразы, произнесенные по рации. Основан пресет на этом ролике: ruclips.net/video/gaa7WrhNrLA/видео.html&t=
    Ссылки на скачивание есть в описании.

  • @hr_tape
    @hr_tape Год назад +22

    В модах классно можно использовать, если еще новые анекдоты придумать, то вообще круто будет.

    • @Warlock7OO
      @Warlock7OO  Год назад +3

      Для модов подобное, особенно если есть человек с хорошим оборудованием и способным повторять манеру, самое оно.)
      Так что не только анекдотами можно ограничиваться.

  • @вышедшийизметро
    @вышедшийизметро Год назад +18

    блин, твой голос больше похожа на нейросеть чем сама нейросеть

    • @Warlock7OO
      @Warlock7OO  Год назад +9

      10 лет работы в call-центре, а так же свойственная характеру апатичность, дают о себе знать...)

    • @NaxuyNamotano
      @NaxuyNamotano Год назад

      ахах внатуре

  • @e_enot
    @e_enot Год назад +5

    неплохо

  • @galifakis1989
    @galifakis1989 Год назад +2

    Слишком короткими кажутся промежутки между словами, не совсем похоже на Сидоровиича, это можно исправить?

    • @Warlock7OO
      @Warlock7OO  Год назад

      Речь о модели, либо демонстрации? На демонстрацию не обращайте внимание - это только пример возможностей, он зависит от оригинальной голосовой дорожки.
      Если о модели, то скажите, как она применяется? Преобразование голосовой дорожки, изменение тональности и черт в реальном времени, либо же Text-to-Speech?

  • @legninville
    @legninville Год назад

    Ждём похожее, но с голосом Прохорова

    • @Warlock7OO
      @Warlock7OO  Год назад

      У Прохорова очень много фраз, в датафайлах есть его черновая озвучка Сидоровича, а так же многих других персонажей. Но из-за того, что RVC усредняет тон в конечном результате - потребуется тщательно выбирать, какие именно фразы использовать.
      Пока что в приоритете голоса других актеров и их персонажей. Тех же военных не в первый раз просят, благо модель по ним уже обучается, потребуется только проверить конечный результат.

  • @Warlock7OO
    @Warlock7OO  Год назад +1

    Голосовая модель, основанная на голосах бойцов из любимой многими группировки "Свобода":
    ruclips.net/video/G0hl8VrhSyo/видео.html

  • @Tupoelf
    @Tupoelf Год назад +16

    Вот что радует, интонацию, пока что, не подделаешь.

    • @Warlock7OO
      @Warlock7OO  Год назад +13

      Если самостоятельно записывать голос и пытаться говорить с той же манерой, что и актер озвучки персонажа, то подделать и ее получится.
      Когда только узнал о функционале RVC, то другу скинул озвученный Гоблином Пучковым фрагмент. Практически было не отличить от оригинального голоса.

    • @vladimiraboniment
      @vladimiraboniment Год назад +1

      и почему это тебя радует? наоборот плохо, что не получится красиво Сидра озвучить

    • @Warlock7OO
      @Warlock7OO  Год назад +3

      @@vladimiraboniment, судя по всему человек рад тому фактору, что нейросеть не обесценит вклад актера озвучивания.
      Озвучить можно, но необходимо приложить старания человеку, который выступит донором для голосовой модели. Мой голос достаточно высокий, а речь быстрее той, что у актера, поэтому результат далек он правдоподобного. К тому же, сталкеры озвучивают анекдоты со своим темпом и выразительностью, что не свойственно персонажу Сидоровича. То есть взять что-то схожее не получится, количество фраз ограничено.

  • @Warlock7OO
    @Warlock7OO  Год назад +2

    "Визю" оставил специально.) Это и смешно, и показывает несовершенство голосовой модели.

  • @vanklais793
    @vanklais793 6 месяцев назад

    А где взять такие модели для ai voice changer?

    • @Warlock7OO
      @Warlock7OO  6 месяцев назад

      Все модели для RVC подходят для voice-changer, поскольку он, как и Applio, основаны на этом проекте.

  • @vanklais793
    @vanklais793 6 месяцев назад

    А где скачать модно индекс и птх?

    • @Warlock7OO
      @Warlock7OO  6 месяцев назад +1

      Все ссылки есть в описании под роликом:
      Моя модель RVC v.2: drive.google.com/file/d/1xlKLPNtGH_VnoB9G-2qnObP0FiQOd54g/view?usp=sharing
      Модель Bobpingvin с weight.gg: www.weights.gg/ru/models/clm72xasr10cwcctcdaudbhgp

    • @vanklais793
      @vanklais793 6 месяцев назад

      @@Warlock7OO спасибо большое , нашел и спасибо за огромную работу . Лайк и подписка . Ещё вопрос , а какое лучше количество файлов и длинна файлов для обучения в рвс ? И влияют ли эпочи на что то ? Просто тренировал сегодня другой голос монолита с 1000 циклов получилось то же что и со 100, а осознание сразу с 200 циклов завелось идеально

    • @Warlock7OO
      @Warlock7OO  6 месяцев назад

      @@vanklais793, спасибо.) Контент требует много времени, поэтому он выходит не так часто, но стараюсь делать его качественным и полностью исчерпывающим...)
      Постараюсь перечислить наиболее важные критерии при обучении:
      1) Качество материала;
      2) Количество материала;
      3) Модель hubert, на которой происходит обучение;
      4) Претрейн, на котором происходит обучение;
      5) Количество эпох.
      Почему количество эпох я указал настолько низко связано с тем, что очень многое зависит от объема материала. Для 10 минут лучшие значения по графикам (смотрится это в tenserboard, график loss/g/total) могут появиться как на 300 эпохе, так и на 500 эпохе при общем обучении в 1000 эпох, при этом количество шагов (step) у лучших моделей будет в районе 16000-32000 для такого объема аудиоданных.
      В свою очередь если брать 40 минут материала, то модель доберется до значений шагов в 30000 еще на 100-200 эпохе, а к концу обучения до 1000 эпохи может легко иметь общее число шагов в 100000 и более.
      С одним пользователем неоднократно проводили эксперименты и удавалось получить удобоваримую модель даже с количеством материала в 30 секунд, поэтому первостепенное значение имеет именно качество материала, количество эпох выбирается исходя из общего объема аудиоматериала.

    • @Warlock7OO
      @Warlock7OO  6 месяцев назад

      @@vanklais793, всю информацию в начале моего пути, как моделедела, мною была получена с канала данного человека:
      www.youtube.com/@ba1yya
      Про определение лучших моделей он говорит в этом видеоролике:
      ruclips.net/video/Zp8QS5CkWXk/видео.html&t=