[2/3] AI RVC • Все что тебе необходимо знать | Все о качестве |Интерфейс | Создание моделей •

Поделиться
HTML-код
  • Опубликовано: 4 июл 2024
  • В данном видосе я расскажу о том, почему я выбрал именно mangio-RVC, затрону все функции интерфейса, а так же покажу на примере, как они работают. Покажу как создавать модели, какие настройки оптимальны. Ну и бонусом, расскажу как работает RVC и как выжать "максимум" из моделей, а так же научу находить идеальное значение для transpose, что бы делать действительно качественную конвертацию.
    -------------Инфа по RVC, а так же ссылки ниже
    docs.google.com/document/d/1i... - Ссылка на установщик Tensorboard (для локальной тренировки).
    Перезаливал тут: • Установщик Tensorboard...
    docs.google.com/document/d/13... - Инфа по обучению
    docs.google.com/document/d/13... - Инфа по каверам (настройкам)
    -------------Таймкоды
    00:00 Вступление
    00:48 Коротко о Easy Интерфейсах
    02:25 Возможности Mangio-RVC
    -Разбор интерфейса
    03:49 Инференс моделей (Model Inference)
    06:05 Разница между mangio-crepe и rmvpe
    08:42 Разделитель голоса и музыки (Vocal/Accompaniment separation)
    09:00 Обучение (Train)
    -Ввод в обучение и вся необходимая инфа
    09:50 Установка tensorboard (обучение на пк локально) ОПЦИОНАЛЬНО
    10:44 Обучение моделей в гугл колабе
    11:39 Что необходимо для обучения модели хорошего качества
    12:14 Настройки для обучения модели.
    15:38 Мониторинг модели на перетренировку (деградацию)
    16:07 Если вдруг выбило из колабы (продолжение обучения модели)
    -Бонус (важная инфа)
    16:46 От чего зависит конечное качество генерации
    19:08 Все что тебе необходимо знать о функции "transpose"
    20:53 Как найти ИДЕАЛЬНОЕ значение transpose
    22:47 Подробно о поиске ИДЕАЛЬНОГО значения
    23:59 О "автоматизации" поиска этого значения
    ----------------------Соцсети и остальное
    boosty.to/kirasabi - Мой бусти
    thekirasabi - Мой паблик в вк.
    t.me/Kirasabi_official - Телега
    / discord - Дискорд канал.
    / thekirasabi - Твич канал.
    www.donationalerts.com/r/thek... - Поддержать рублем можно тут.
  • НаукаНаука

Комментарии • 48

  • @jodger2686
    @jodger2686 10 месяцев назад +2

    Спасибо большое за такое качественное видео. Рад, что нашёл твой канал!

  • @user-vt8vx2yb8m
    @user-vt8vx2yb8m 10 месяцев назад +1

    Мужик респект тебе, благодарочка нереальная

  • @r35p3ct00
    @r35p3ct00 9 месяцев назад +1

    Четко разложил

  • @zigovv2628
    @zigovv2628 9 месяцев назад

    отличная дикция)

  • @user-vv2br5hz3n
    @user-vv2br5hz3n 5 месяцев назад

    Харошее

  • @chadthundercock1433
    @chadthundercock1433 7 месяцев назад

    Голос у тебя имба, тебе бы озвучивать что-нибудь

  • @hardway777
    @hardway777 8 месяцев назад +1

    А что делать если в локалке ничего не работает? Ни проц ни видеокарта не грузятся...

  • @wakeup2.369
    @wakeup2.369 8 месяцев назад

    Здравствуйте как с вами связаться, хочу заказать голосовые модели

  • @danilkukishew1097
    @danilkukishew1097 9 месяцев назад +2

    Привет, пожалуйста расскажи что делать, если возникла ошибка AttributeError: 'NoneType' object has no attribute 'tobytes', она возникала у многих пользователей и помоему даже уже тебе писали в прошлом видео про эту ошибку, но все же прошу помоги с решением этой проблемы, на самом сайте с нейронкой есть упоминание этой проблемы, но её так и не решили

    • @TheKirasabi
      @TheKirasabi  9 месяцев назад +2

      Сам гуглил по поводу этой ошибки, с ней как-то непонятно, либо нужно устанавливать и собирать torch и torchaudio (что является фишкой видеокарт от nvida) - из-за которой у меня нихуя нормально не работает, пока не соберу. Либо нехватка видеопамяти\поломанная модель. Мне папищек в дискорде кидал модели, часть из них вообще не запускалась, возможно файл модели бьется при скачивании либо хз. Пока решения не нашел, но если будет, я пособираю различные ошибки и сделаю об этом видос, а так пока что только парочка и то, не критичных

  • @makszagreus
    @makszagreus 5 месяцев назад

    Привет! Благодарю за видео. Правильно ли я понимаю, что если g/total начал активно расти вверх (непрерывно), то нужно остановить тренировку дабы не допустить ее перетренировку? И далее, зная примерные количество эпох на которых модель начала спуск - ограничиться этим количеством, но не более (чтобы не допустить снова перетренировку).

    • @TheKirasabi
      @TheKirasabi  5 месяцев назад

      да. желательно использовать слегка недообученные модели, т.е условно на 300 эпоче идет спад, на 330 прогресс остановился и на 360 эпоче график начал стабильно ползти вверх, то лучше итспользовать 300 версию, хотя можно и 320, 225 - все зависит от того как часто модель сохраняется на жесткий диск и с каким промежутком по эпочам.

  • @user-ut9rq2ef3b
    @user-ut9rq2ef3b 5 месяцев назад

    А что делать если первого шага по создании модели в гугл колабе появляется не dataset a RVC_Cached?

  • @user-bs6jg4pn3y
    @user-bs6jg4pn3y 6 месяцев назад

    привет, создавала модель своего голоса и на последнем этапе где создаются эпохи вылазит строчка в cmd INFO:torch.nn.parallel.distributed:Reducer buckets have been rebuilt in this iteration. И после неё больше ничего. Подскажи что можно сделать?

  • @nikolaydd6219
    @nikolaydd6219 10 месяцев назад

    3:36 что это за сервис для генерации текста?

  • @bogdanprostov861
    @bogdanprostov861 9 месяцев назад

    Привет ! спасибо за видео.
    подскажите что делать
    в Колабе в четвертом шаге выдает такую ошибку.
    не получается подгрузить зип архив с аудио голоса из гугл диска что бы создать модель. само
    аудио в формате wav/ сам архив на английский переименовал, папку датасет создал, но все равно такая ошибка. доступ тоже расширил.
    Error in verifying dataset: There is no chick-hicks.zip in /content/drive/MyDrive/dataset
    unzip: cannot find or open /content/drive/MyDrive/dataset/chick-hicks.zip, /content/drive/MyDrive/dataset/chick-hicks.zip.zip or /content/drive/MyDrive/dataset/chick-hicks.zip.ZIP.
    Dataset imported. You can now copy the path of the dataset folder to the training path.

  • @TookAnHourToInvent
    @TookAnHourToInvent 9 месяцев назад

    Index-файл ведь генерируется в начале тренировки? То есть для разных ".pth" файлов определенной голосовой модели, отличающихся количеством эпох, один и тот же ".index"?

    • @TheKirasabi
      @TheKirasabi  9 месяцев назад +1

      нет, индекс это акент модели. Его можно не использовать, иногда собственно модели и выгружают без индекса, например в миксах из моделей.
      По своей сути индекс - очень специфичен. Очень редко бывают случаи когда он реально "вытянет" модель. Ибо зачасую он добавляет косяки. Ну а полезным может быть в случае если тебе нужен "легкий" японский/английский/русский акцент на других языках и то, в случае если ты выставляешь небольшое значение индекса

    • @TheKirasabi
      @TheKirasabi  9 месяцев назад +1

      Возможно ты просто путаешь с vae от stable diffusion, тут принцип немножко другой

    • @TookAnHourToInvent
      @TookAnHourToInvent 9 месяцев назад

      @@TheKirasabi Понял. Я думал, что ".index" как и ".pth" является обязательной частью голосовой модели.

    • @TookAnHourToInvent
      @TookAnHourToInvent 9 месяцев назад

      ​@@TheKirasabi Еще один вопрос. При тренировке модели я выбираю алгоритм извлечения частот, и при конвертации голоса с готовой моделью я тоже выбираю алгоритм извлечения частот. Вопрос: Как это работает? Если при конвертации я выберу алгоритм rmvpe, будет ли на результат влиять то, что я тренировал модель на mangio-crepe?

    • @TheKirasabi
      @TheKirasabi  9 месяцев назад +1

      @@TookAnHourToInvent Как бы да и нет. Мы тренеровали модель дикторши аудиокниги на крипи в 500 эпочей и рмвпе в обоих случаях разница была не то что бы прям сильной. рмвпе кажесто обучает лучше, но крипи быстро и хорошо.
      Так же если говорить о конвертации, то зависит от аудио дорожки, правила остаются теми же. Для рэпа, хипхопа и прочего - хорошо показывает себя крипи, а более универсальный вариант, для плавных переходов и простой смены голоса - рмвпе.

  • @elizabeth_harrypotter
    @elizabeth_harrypotter 5 месяцев назад

    а аудио в датасете должны быть в каком формате? в мп3 или wav или не важно

    • @TheKirasabi
      @TheKirasabi  5 месяцев назад +1

      Не имеет значения. Главное что бы дорожка не содержала сильных шумов или искажений, а так же общая длительность хотя бы примерное 10 минут но чем больше тем лучше. На прошлый коммент ответил, в свободное время запишу видос с новым методом обучения моделей.

    • @elizabeth_harrypotter
      @elizabeth_harrypotter 5 месяцев назад

      @@TheKirasabi спасибо за ответ, но у меня почему-то выдает ошибку ffmpeg error при загрузке файлов :(
      Буду ждать новое видео, может тогда все получится))

  • @youtubeyh
    @youtubeyh 3 месяца назад

    Это .pth голоса с канала "Izzy laife" + копирование его фраз или это оригинальный изя?

    • @TheKirasabi
      @TheKirasabi  2 месяца назад

      круче, я просто его внукGPT.

  • @dmitrysergeevich7603
    @dmitrysergeevich7603 10 месяцев назад

    Респект , отличный тутор , но 22:55 зачем столько лишних телодвижений при питчшифте , если на слух все проще и быстрее подбирается , макс пару тройку генераций и попадаешь в оптимальное значение, первым значением просто ставишь +-6 а дальше корректируешь , такой способ с ключом скорее нужен когда нужно в оригинальную тональность каппы попасть при конверте между мж.

    • @TheKirasabi
      @TheKirasabi  10 месяцев назад

      что бы звучало не как говно чужеродное. Таким образом ты буквально сопоставляешь голосовую модель и аудио дорожку и находишь в ней разницу. Чисто технически - это будет звучать лучше и гармоничнее (можно и на слух... Но видимо у некоторых он отсутствует вовсе).
      Да, можно сделать несколько прогонов, но что так, что так тратишь время, а при обработке звука это сыграет свою роль ибо сколько эффектов не накладывай - если музка с голосом не совпадает (тайминг, нота, шакалы звук пожрали) - получится то, чем сейчас засрана половина ютаба

    • @TheKirasabi
      @TheKirasabi  10 месяцев назад

      а ну и суть этого способа в том, что бы модель не шакалилась на высоких и низких частотах (фальсет) к примеру. Пушто в 99% модели на нем не тренятся и их начинает люто рвать
      т.е она работает в пределах своего диапазона.

    • @aigurletov
      @aigurletov 10 месяцев назад +1

      О! Вот это пушка! 21:34 Руками подбирать сидеть, даже, когда со слухом все ок, просто унылая трата времени. Вначале сидишь ждешь пока обучится, потом сидишь ждешь, когда брак выдавать перестанет.
      Спасибо!!! ✊✊✊

  • @MrTravakurov
    @MrTravakurov 7 месяцев назад

    Хотел попробовать на своем компе обучать, но не выходит скачать второй файл, который в папку с rvc нужно положить. Страница недоступна☹

    • @TheKirasabi
      @TheKirasabi  7 месяцев назад +1

      Сейчас там однокнопочная установка, если нужно обучение то нужно качать INFER_TRAIN.
      ruclips.net/video/8RJNICdenME/видео.html
      Ровно на минуте показываю об этом способе.
      А так, по способу из этого видоса установка слегка нестабильная ибо не понятно че они там накрутили. Но по итогу стало чуть проще для рядового пользователя

    • @MrTravakurov
      @MrTravakurov 7 месяцев назад

      @@TheKirasabi это я понял. У меня rvc установилась первым способом без проблем, делал по инструкции из первого твоего видео (за него большое спасибо тебе!). Проблема заключается в том, что для обучения нужен Tensorboard. Т.е. его нужно установить и запустить. Как это сделать в новой версии rvc, учитывая, что батник, который для запуска уже не скачать? Или Tensorboard уже установлен в новой rvc и ничего делать не надо?

    • @TheKirasabi
      @TheKirasabi  6 месяцев назад

      Опять же спустя месяц, сегодня выгружу видос и прикреплю те два самых батника для тензорбоарда. Пол инета перерыл - не нашел. Оказалось, что бекапы были у знакомого, хотя по сути там двух строчный код который продублирован на сайте откуда нужно было качать тезорбоард.

  • @elizabeth_harrypotter
    @elizabeth_harrypotter 5 месяцев назад

    Привет, почему меня все время выкидывает из колаба каждые 5 минут? Невозможно даже начать тренировку потому что стоит только загрузиться в программу, меня сразу выкидывает пишет "Подключение к среде выполнения прервано. Среда выполнения отключена из-за выполнения кода, недопустимого в бесплатной версии". Что это за бред :/
    Я даже загрузить ничего не успеваю, а уже превышаю какой-то лимит.

    • @TheKirasabi
      @TheKirasabi  5 месяцев назад +1

      Как недавно выяснилось, гугл колаба начала бороться с нейросетями путем тотального запрета gradio (web - интерфейса). В скором времени выгружу видос по новому способу обучения, хотя принцип будет все тот же, разве что слегка другой интерфейс.

    • @elizabeth_harrypotter
      @elizabeth_harrypotter 5 месяцев назад

      @@TheKirasabi аа, вот оно что, спасибо!

    • @user-ut9rq2ef3b
      @user-ut9rq2ef3b 5 месяцев назад

      @@TheKirasabi Я так понимаю этот способ не катит уже?(у меня просто вместо файла dataset на первом этапе по созданию в гугл колабе скачивается RVC_Cached

    • @TheKirasabi
      @TheKirasabi  5 месяцев назад

      @@user-ut9rq2ef3b да, я на бусти уже выгрузил видос в открытый доступ с новым способом обучения, тут на ютубе видос будет 23 числа, но к сожалению он не идеален (сохраняет только последнюю epoch) т.е пишешь 500 эпочей и нужно ждать 500, резервные копии не делает в прогрессе обучения.
      Есть видос на канале politress парнишка делал видос об обучении, но у кого-то данный способ работает у кого то (у меня и других - дропается обучение на 30-50 эпоче и приходится постоянно перезагружать колабу)

    • @user-ut9rq2ef3b
      @user-ut9rq2ef3b 5 месяцев назад

      @@TheKirasabi ок, понял, принял.

  • @grimemachine
    @grimemachine 7 месяцев назад

    Всем привет!
    TensorBoard не скачать(

    • @V29432
      @V29432 7 месяцев назад +1

      Да. Файлы по ссылке не открываются.

    • @TheKirasabi
      @TheKirasabi  6 месяцев назад +1

      Спустя месяц... но все же, откопал батники, пилю видос сегодня выгружу, можно будет скачать тензорбоард без проблем.

    • @grimemachine
      @grimemachine 6 месяцев назад

      Сообщение не отправилось, спасибо большое за помощь, все летает.)
      P.S. (Подписан соответственно, like пробит!)@@TheKirasabi

  • @nikolaydd6219
    @nikolaydd6219 8 месяцев назад

    индекс файл все порти

    • @TheKirasabi
      @TheKirasabi  8 месяцев назад

      Индекс нужно выставлять в зависмости от качества модели. Даже если модель ультра хорошо обучена - не стоит выставлять высокие значения индекса. Ибо индекс это акцент.