[2/3] AI RVC • Все что тебе необходимо знать | Все о качестве |Интерфейс | Создание моделей •
HTML-код
- Опубликовано: 4 июл 2024
- В данном видосе я расскажу о том, почему я выбрал именно mangio-RVC, затрону все функции интерфейса, а так же покажу на примере, как они работают. Покажу как создавать модели, какие настройки оптимальны. Ну и бонусом, расскажу как работает RVC и как выжать "максимум" из моделей, а так же научу находить идеальное значение для transpose, что бы делать действительно качественную конвертацию.
-------------Инфа по RVC, а так же ссылки ниже
docs.google.com/document/d/1i... - Ссылка на установщик Tensorboard (для локальной тренировки).
Перезаливал тут: • Установщик Tensorboard...
docs.google.com/document/d/13... - Инфа по обучению
docs.google.com/document/d/13... - Инфа по каверам (настройкам)
-------------Таймкоды
00:00 Вступление
00:48 Коротко о Easy Интерфейсах
02:25 Возможности Mangio-RVC
-Разбор интерфейса
03:49 Инференс моделей (Model Inference)
06:05 Разница между mangio-crepe и rmvpe
08:42 Разделитель голоса и музыки (Vocal/Accompaniment separation)
09:00 Обучение (Train)
-Ввод в обучение и вся необходимая инфа
09:50 Установка tensorboard (обучение на пк локально) ОПЦИОНАЛЬНО
10:44 Обучение моделей в гугл колабе
11:39 Что необходимо для обучения модели хорошего качества
12:14 Настройки для обучения модели.
15:38 Мониторинг модели на перетренировку (деградацию)
16:07 Если вдруг выбило из колабы (продолжение обучения модели)
-Бонус (важная инфа)
16:46 От чего зависит конечное качество генерации
19:08 Все что тебе необходимо знать о функции "transpose"
20:53 Как найти ИДЕАЛЬНОЕ значение transpose
22:47 Подробно о поиске ИДЕАЛЬНОГО значения
23:59 О "автоматизации" поиска этого значения
----------------------Соцсети и остальное
boosty.to/kirasabi - Мой бусти
thekirasabi - Мой паблик в вк.
t.me/Kirasabi_official - Телега
/ discord - Дискорд канал.
/ thekirasabi - Твич канал.
www.donationalerts.com/r/thek... - Поддержать рублем можно тут. Наука
Спасибо большое за такое качественное видео. Рад, что нашёл твой канал!
Мужик респект тебе, благодарочка нереальная
Четко разложил
отличная дикция)
Харошее
Голос у тебя имба, тебе бы озвучивать что-нибудь
А что делать если в локалке ничего не работает? Ни проц ни видеокарта не грузятся...
Здравствуйте как с вами связаться, хочу заказать голосовые модели
Привет, пожалуйста расскажи что делать, если возникла ошибка AttributeError: 'NoneType' object has no attribute 'tobytes', она возникала у многих пользователей и помоему даже уже тебе писали в прошлом видео про эту ошибку, но все же прошу помоги с решением этой проблемы, на самом сайте с нейронкой есть упоминание этой проблемы, но её так и не решили
Сам гуглил по поводу этой ошибки, с ней как-то непонятно, либо нужно устанавливать и собирать torch и torchaudio (что является фишкой видеокарт от nvida) - из-за которой у меня нихуя нормально не работает, пока не соберу. Либо нехватка видеопамяти\поломанная модель. Мне папищек в дискорде кидал модели, часть из них вообще не запускалась, возможно файл модели бьется при скачивании либо хз. Пока решения не нашел, но если будет, я пособираю различные ошибки и сделаю об этом видос, а так пока что только парочка и то, не критичных
Привет! Благодарю за видео. Правильно ли я понимаю, что если g/total начал активно расти вверх (непрерывно), то нужно остановить тренировку дабы не допустить ее перетренировку? И далее, зная примерные количество эпох на которых модель начала спуск - ограничиться этим количеством, но не более (чтобы не допустить снова перетренировку).
да. желательно использовать слегка недообученные модели, т.е условно на 300 эпоче идет спад, на 330 прогресс остановился и на 360 эпоче график начал стабильно ползти вверх, то лучше итспользовать 300 версию, хотя можно и 320, 225 - все зависит от того как часто модель сохраняется на жесткий диск и с каким промежутком по эпочам.
А что делать если первого шага по создании модели в гугл колабе появляется не dataset a RVC_Cached?
привет, создавала модель своего голоса и на последнем этапе где создаются эпохи вылазит строчка в cmd INFO:torch.nn.parallel.distributed:Reducer buckets have been rebuilt in this iteration. И после неё больше ничего. Подскажи что можно сделать?
3:36 что это за сервис для генерации текста?
Привет ! спасибо за видео.
подскажите что делать
в Колабе в четвертом шаге выдает такую ошибку.
не получается подгрузить зип архив с аудио голоса из гугл диска что бы создать модель. само
аудио в формате wav/ сам архив на английский переименовал, папку датасет создал, но все равно такая ошибка. доступ тоже расширил.
Error in verifying dataset: There is no chick-hicks.zip in /content/drive/MyDrive/dataset
unzip: cannot find or open /content/drive/MyDrive/dataset/chick-hicks.zip, /content/drive/MyDrive/dataset/chick-hicks.zip.zip or /content/drive/MyDrive/dataset/chick-hicks.zip.ZIP.
Dataset imported. You can now copy the path of the dataset folder to the training path.
Index-файл ведь генерируется в начале тренировки? То есть для разных ".pth" файлов определенной голосовой модели, отличающихся количеством эпох, один и тот же ".index"?
нет, индекс это акент модели. Его можно не использовать, иногда собственно модели и выгружают без индекса, например в миксах из моделей.
По своей сути индекс - очень специфичен. Очень редко бывают случаи когда он реально "вытянет" модель. Ибо зачасую он добавляет косяки. Ну а полезным может быть в случае если тебе нужен "легкий" японский/английский/русский акцент на других языках и то, в случае если ты выставляешь небольшое значение индекса
Возможно ты просто путаешь с vae от stable diffusion, тут принцип немножко другой
@@TheKirasabi Понял. Я думал, что ".index" как и ".pth" является обязательной частью голосовой модели.
@@TheKirasabi Еще один вопрос. При тренировке модели я выбираю алгоритм извлечения частот, и при конвертации голоса с готовой моделью я тоже выбираю алгоритм извлечения частот. Вопрос: Как это работает? Если при конвертации я выберу алгоритм rmvpe, будет ли на результат влиять то, что я тренировал модель на mangio-crepe?
@@TookAnHourToInvent Как бы да и нет. Мы тренеровали модель дикторши аудиокниги на крипи в 500 эпочей и рмвпе в обоих случаях разница была не то что бы прям сильной. рмвпе кажесто обучает лучше, но крипи быстро и хорошо.
Так же если говорить о конвертации, то зависит от аудио дорожки, правила остаются теми же. Для рэпа, хипхопа и прочего - хорошо показывает себя крипи, а более универсальный вариант, для плавных переходов и простой смены голоса - рмвпе.
а аудио в датасете должны быть в каком формате? в мп3 или wav или не важно
Не имеет значения. Главное что бы дорожка не содержала сильных шумов или искажений, а так же общая длительность хотя бы примерное 10 минут но чем больше тем лучше. На прошлый коммент ответил, в свободное время запишу видос с новым методом обучения моделей.
@@TheKirasabi спасибо за ответ, но у меня почему-то выдает ошибку ffmpeg error при загрузке файлов :(
Буду ждать новое видео, может тогда все получится))
Это .pth голоса с канала "Izzy laife" + копирование его фраз или это оригинальный изя?
круче, я просто его внукGPT.
Респект , отличный тутор , но 22:55 зачем столько лишних телодвижений при питчшифте , если на слух все проще и быстрее подбирается , макс пару тройку генераций и попадаешь в оптимальное значение, первым значением просто ставишь +-6 а дальше корректируешь , такой способ с ключом скорее нужен когда нужно в оригинальную тональность каппы попасть при конверте между мж.
что бы звучало не как говно чужеродное. Таким образом ты буквально сопоставляешь голосовую модель и аудио дорожку и находишь в ней разницу. Чисто технически - это будет звучать лучше и гармоничнее (можно и на слух... Но видимо у некоторых он отсутствует вовсе).
Да, можно сделать несколько прогонов, но что так, что так тратишь время, а при обработке звука это сыграет свою роль ибо сколько эффектов не накладывай - если музка с голосом не совпадает (тайминг, нота, шакалы звук пожрали) - получится то, чем сейчас засрана половина ютаба
а ну и суть этого способа в том, что бы модель не шакалилась на высоких и низких частотах (фальсет) к примеру. Пушто в 99% модели на нем не тренятся и их начинает люто рвать
т.е она работает в пределах своего диапазона.
О! Вот это пушка! 21:34 Руками подбирать сидеть, даже, когда со слухом все ок, просто унылая трата времени. Вначале сидишь ждешь пока обучится, потом сидишь ждешь, когда брак выдавать перестанет.
Спасибо!!! ✊✊✊
Хотел попробовать на своем компе обучать, но не выходит скачать второй файл, который в папку с rvc нужно положить. Страница недоступна☹
Сейчас там однокнопочная установка, если нужно обучение то нужно качать INFER_TRAIN.
ruclips.net/video/8RJNICdenME/видео.html
Ровно на минуте показываю об этом способе.
А так, по способу из этого видоса установка слегка нестабильная ибо не понятно че они там накрутили. Но по итогу стало чуть проще для рядового пользователя
@@TheKirasabi это я понял. У меня rvc установилась первым способом без проблем, делал по инструкции из первого твоего видео (за него большое спасибо тебе!). Проблема заключается в том, что для обучения нужен Tensorboard. Т.е. его нужно установить и запустить. Как это сделать в новой версии rvc, учитывая, что батник, который для запуска уже не скачать? Или Tensorboard уже установлен в новой rvc и ничего делать не надо?
Опять же спустя месяц, сегодня выгружу видос и прикреплю те два самых батника для тензорбоарда. Пол инета перерыл - не нашел. Оказалось, что бекапы были у знакомого, хотя по сути там двух строчный код который продублирован на сайте откуда нужно было качать тезорбоард.
Привет, почему меня все время выкидывает из колаба каждые 5 минут? Невозможно даже начать тренировку потому что стоит только загрузиться в программу, меня сразу выкидывает пишет "Подключение к среде выполнения прервано. Среда выполнения отключена из-за выполнения кода, недопустимого в бесплатной версии". Что это за бред :/
Я даже загрузить ничего не успеваю, а уже превышаю какой-то лимит.
Как недавно выяснилось, гугл колаба начала бороться с нейросетями путем тотального запрета gradio (web - интерфейса). В скором времени выгружу видос по новому способу обучения, хотя принцип будет все тот же, разве что слегка другой интерфейс.
@@TheKirasabi аа, вот оно что, спасибо!
@@TheKirasabi Я так понимаю этот способ не катит уже?(у меня просто вместо файла dataset на первом этапе по созданию в гугл колабе скачивается RVC_Cached
@@user-ut9rq2ef3b да, я на бусти уже выгрузил видос в открытый доступ с новым способом обучения, тут на ютубе видос будет 23 числа, но к сожалению он не идеален (сохраняет только последнюю epoch) т.е пишешь 500 эпочей и нужно ждать 500, резервные копии не делает в прогрессе обучения.
Есть видос на канале politress парнишка делал видос об обучении, но у кого-то данный способ работает у кого то (у меня и других - дропается обучение на 30-50 эпоче и приходится постоянно перезагружать колабу)
@@TheKirasabi ок, понял, принял.
Всем привет!
TensorBoard не скачать(
Да. Файлы по ссылке не открываются.
Спустя месяц... но все же, откопал батники, пилю видос сегодня выгружу, можно будет скачать тензорбоард без проблем.
Сообщение не отправилось, спасибо большое за помощь, все летает.)
P.S. (Подписан соответственно, like пробит!)@@TheKirasabi
индекс файл все порти
Индекс нужно выставлять в зависмости от качества модели. Даже если модель ультра хорошо обучена - не стоит выставлять высокие значения индекса. Ибо индекс это акцент.