[2/3] AI RVC • Все что тебе необходимо знать | Все о качестве |Интерфейс | Создание моделей •

TheKirasabi

Просмотров 4,4 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 4 июл 2024
В данном видосе я расскажу о том, почему я выбрал именно mangio-RVC, затрону все функции интерфейса, а так же покажу на примере, как они работают. Покажу как создавать модели, какие настройки оптимальны. Ну и бонусом, расскажу как работает RVC и как выжать "максимум" из моделей, а так же научу находить идеальное значение для transpose, что бы делать действительно качественную конвертацию.
-------------Инфа по RVC, а так же ссылки ниже
docs.google.com/document/d/1i... - Ссылка на установщик Tensorboard (для локальной тренировки).
Перезаливал тут: • Установщик Tensorboard...
docs.google.com/document/d/13... - Инфа по обучению
docs.google.com/document/d/13... - Инфа по каверам (настройкам)
-------------Таймкоды
00:00 Вступление
00:48 Коротко о Easy Интерфейсах
02:25 Возможности Mangio-RVC
-Разбор интерфейса
03:49 Инференс моделей (Model Inference)
06:05 Разница между mangio-crepe и rmvpe
08:42 Разделитель голоса и музыки (Vocal/Accompaniment separation)
09:00 Обучение (Train)
-Ввод в обучение и вся необходимая инфа
09:50 Установка tensorboard (обучение на пк локально) ОПЦИОНАЛЬНО
10:44 Обучение моделей в гугл колабе
11:39 Что необходимо для обучения модели хорошего качества
12:14 Настройки для обучения модели.
15:38 Мониторинг модели на перетренировку (деградацию)
16:07 Если вдруг выбило из колабы (продолжение обучения модели)
-Бонус (важная инфа)
16:46 От чего зависит конечное качество генерации
19:08 Все что тебе необходимо знать о функции "transpose"
20:53 Как найти ИДЕАЛЬНОЕ значение transpose
22:47 Подробно о поиске ИДЕАЛЬНОГО значения
23:59 О "автоматизации" поиска этого значения
----------------------Соцсети и остальное
boosty.to/kirasabi - Мой бусти
thekirasabi - Мой паблик в вк.
t.me/Kirasabi_official - Телега
/ discord - Дискорд канал.
/ thekirasabi - Твич канал.
www.donationalerts.com/r/thek... - Поддержать рублем можно тут.
Наука

Комментарии • 48

@jodger2686 10 месяцев назад ⁺²
Спасибо большое за такое качественное видео. Рад, что нашёл твой канал!
@user-vt8vx2yb8m 10 месяцев назад ⁺¹
Мужик респект тебе, благодарочка нереальная
@r35p3ct00 9 месяцев назад ⁺¹
Четко разложил
@zigovv2628 9 месяцев назад
отличная дикция)
@user-vv2br5hz3n 5 месяцев назад
Харошее
@chadthundercock1433 7 месяцев назад
Голос у тебя имба, тебе бы озвучивать что-нибудь
@hardway777 8 месяцев назад ⁺¹
А что делать если в локалке ничего не работает? Ни проц ни видеокарта не грузятся...
@wakeup2.369 8 месяцев назад
Здравствуйте как с вами связаться, хочу заказать голосовые модели
@danilkukishew1097 9 месяцев назад ⁺²
Привет, пожалуйста расскажи что делать, если возникла ошибка AttributeError: 'NoneType' object has no attribute 'tobytes', она возникала у многих пользователей и помоему даже уже тебе писали в прошлом видео про эту ошибку, но все же прошу помоги с решением этой проблемы, на самом сайте с нейронкой есть упоминание этой проблемы, но её так и не решили
@TheKirasabi 9 месяцев назад ⁺²
Сам гуглил по поводу этой ошибки, с ней как-то непонятно, либо нужно устанавливать и собирать torch и torchaudio (что является фишкой видеокарт от nvida) - из-за которой у меня нихуя нормально не работает, пока не соберу. Либо нехватка видеопамяти\поломанная модель. Мне папищек в дискорде кидал модели, часть из них вообще не запускалась, возможно файл модели бьется при скачивании либо хз. Пока решения не нашел, но если будет, я пособираю различные ошибки и сделаю об этом видос, а так пока что только парочка и то, не критичных
@makszagreus 5 месяцев назад
Привет! Благодарю за видео. Правильно ли я понимаю, что если g/total начал активно расти вверх (непрерывно), то нужно остановить тренировку дабы не допустить ее перетренировку? И далее, зная примерные количество эпох на которых модель начала спуск - ограничиться этим количеством, но не более (чтобы не допустить снова перетренировку).
@TheKirasabi 5 месяцев назад
да. желательно использовать слегка недообученные модели, т.е условно на 300 эпоче идет спад, на 330 прогресс остановился и на 360 эпоче график начал стабильно ползти вверх, то лучше итспользовать 300 версию, хотя можно и 320, 225 - все зависит от того как часто модель сохраняется на жесткий диск и с каким промежутком по эпочам.
@user-ut9rq2ef3b 5 месяцев назад
А что делать если первого шага по создании модели в гугл колабе появляется не dataset a RVC_Cached?
@user-bs6jg4pn3y 6 месяцев назад
привет, создавала модель своего голоса и на последнем этапе где создаются эпохи вылазит строчка в cmd INFO:torch.nn.parallel.distributed:Reducer buckets have been rebuilt in this iteration. И после неё больше ничего. Подскажи что можно сделать?
@nikolaydd6219 10 месяцев назад
3:36 что это за сервис для генерации текста?
@bogdanprostov861 9 месяцев назад
Привет ! спасибо за видео.
подскажите что делать
в Колабе в четвертом шаге выдает такую ошибку.
не получается подгрузить зип архив с аудио голоса из гугл диска что бы создать модель. само
аудио в формате wav/ сам архив на английский переименовал, папку датасет создал, но все равно такая ошибка. доступ тоже расширил.
Error in verifying dataset: There is no chick-hicks.zip in /content/drive/MyDrive/dataset
unzip: cannot find or open /content/drive/MyDrive/dataset/chick-hicks.zip, /content/drive/MyDrive/dataset/chick-hicks.zip.zip or /content/drive/MyDrive/dataset/chick-hicks.zip.ZIP.
Dataset imported. You can now copy the path of the dataset folder to the training path.
@TookAnHourToInvent 9 месяцев назад
Index-файл ведь генерируется в начале тренировки? То есть для разных ".pth" файлов определенной голосовой модели, отличающихся количеством эпох, один и тот же ".index"?
@TheKirasabi 9 месяцев назад ⁺¹
нет, индекс это акент модели. Его можно не использовать, иногда собственно модели и выгружают без индекса, например в миксах из моделей.
По своей сути индекс - очень специфичен. Очень редко бывают случаи когда он реально "вытянет" модель. Ибо зачасую он добавляет косяки. Ну а полезным может быть в случае если тебе нужен "легкий" японский/английский/русский акцент на других языках и то, в случае если ты выставляешь небольшое значение индекса
@TheKirasabi 9 месяцев назад ⁺¹
Возможно ты просто путаешь с vae от stable diffusion, тут принцип немножко другой
@TookAnHourToInvent 9 месяцев назад
@@TheKirasabi Понял. Я думал, что ".index" как и ".pth" является обязательной частью голосовой модели.
@TookAnHourToInvent 9 месяцев назад
@@TheKirasabi Еще один вопрос. При тренировке модели я выбираю алгоритм извлечения частот, и при конвертации голоса с готовой моделью я тоже выбираю алгоритм извлечения частот. Вопрос: Как это работает? Если при конвертации я выберу алгоритм rmvpe, будет ли на результат влиять то, что я тренировал модель на mangio-crepe?
@TheKirasabi 9 месяцев назад ⁺¹
@@TookAnHourToInvent Как бы да и нет. Мы тренеровали модель дикторши аудиокниги на крипи в 500 эпочей и рмвпе в обоих случаях разница была не то что бы прям сильной. рмвпе кажесто обучает лучше, но крипи быстро и хорошо.
Так же если говорить о конвертации, то зависит от аудио дорожки, правила остаются теми же. Для рэпа, хипхопа и прочего - хорошо показывает себя крипи, а более универсальный вариант, для плавных переходов и простой смены голоса - рмвпе.
@elizabeth_harrypotter 5 месяцев назад
а аудио в датасете должны быть в каком формате? в мп3 или wav или не важно
@TheKirasabi 5 месяцев назад ⁺¹
Не имеет значения. Главное что бы дорожка не содержала сильных шумов или искажений, а так же общая длительность хотя бы примерное 10 минут но чем больше тем лучше. На прошлый коммент ответил, в свободное время запишу видос с новым методом обучения моделей.
@elizabeth_harrypotter 5 месяцев назад
@@TheKirasabi спасибо за ответ, но у меня почему-то выдает ошибку ffmpeg error при загрузке файлов :(
Буду ждать новое видео, может тогда все получится))
@youtubeyh 3 месяца назад
Это .pth голоса с канала "Izzy laife" + копирование его фраз или это оригинальный изя?
@TheKirasabi 2 месяца назад
круче, я просто его внукGPT.
@dmitrysergeevich7603 10 месяцев назад
Респект , отличный тутор , но 22:55 зачем столько лишних телодвижений при питчшифте , если на слух все проще и быстрее подбирается , макс пару тройку генераций и попадаешь в оптимальное значение, первым значением просто ставишь +-6 а дальше корректируешь , такой способ с ключом скорее нужен когда нужно в оригинальную тональность каппы попасть при конверте между мж.
@TheKirasabi 10 месяцев назад
что бы звучало не как говно чужеродное. Таким образом ты буквально сопоставляешь голосовую модель и аудио дорожку и находишь в ней разницу. Чисто технически - это будет звучать лучше и гармоничнее (можно и на слух... Но видимо у некоторых он отсутствует вовсе).
Да, можно сделать несколько прогонов, но что так, что так тратишь время, а при обработке звука это сыграет свою роль ибо сколько эффектов не накладывай - если музка с голосом не совпадает (тайминг, нота, шакалы звук пожрали) - получится то, чем сейчас засрана половина ютаба
@TheKirasabi 10 месяцев назад
а ну и суть этого способа в том, что бы модель не шакалилась на высоких и низких частотах (фальсет) к примеру. Пушто в 99% модели на нем не тренятся и их начинает люто рвать
т.е она работает в пределах своего диапазона.
@aigurletov 10 месяцев назад ⁺¹
О! Вот это пушка! 21:34 Руками подбирать сидеть, даже, когда со слухом все ок, просто унылая трата времени. Вначале сидишь ждешь пока обучится, потом сидишь ждешь, когда брак выдавать перестанет.
Спасибо!!! ✊✊✊
@MrTravakurov 7 месяцев назад
Хотел попробовать на своем компе обучать, но не выходит скачать второй файл, который в папку с rvc нужно положить. Страница недоступна☹
@TheKirasabi 7 месяцев назад ⁺¹
Сейчас там однокнопочная установка, если нужно обучение то нужно качать INFER_TRAIN.
ruclips.net/video/8RJNICdenME/видео.html
Ровно на минуте показываю об этом способе.
А так, по способу из этого видоса установка слегка нестабильная ибо не понятно че они там накрутили. Но по итогу стало чуть проще для рядового пользователя
@MrTravakurov 7 месяцев назад
@@TheKirasabi это я понял. У меня rvc установилась первым способом без проблем, делал по инструкции из первого твоего видео (за него большое спасибо тебе!). Проблема заключается в том, что для обучения нужен Tensorboard. Т.е. его нужно установить и запустить. Как это сделать в новой версии rvc, учитывая, что батник, который для запуска уже не скачать? Или Tensorboard уже установлен в новой rvc и ничего делать не надо?
@TheKirasabi 6 месяцев назад
Опять же спустя месяц, сегодня выгружу видос и прикреплю те два самых батника для тензорбоарда. Пол инета перерыл - не нашел. Оказалось, что бекапы были у знакомого, хотя по сути там двух строчный код который продублирован на сайте откуда нужно было качать тезорбоард.
@elizabeth_harrypotter 5 месяцев назад
Привет, почему меня все время выкидывает из колаба каждые 5 минут? Невозможно даже начать тренировку потому что стоит только загрузиться в программу, меня сразу выкидывает пишет "Подключение к среде выполнения прервано. Среда выполнения отключена из-за выполнения кода, недопустимого в бесплатной версии". Что это за бред :/
Я даже загрузить ничего не успеваю, а уже превышаю какой-то лимит.
@TheKirasabi 5 месяцев назад ⁺¹
Как недавно выяснилось, гугл колаба начала бороться с нейросетями путем тотального запрета gradio (web - интерфейса). В скором времени выгружу видос по новому способу обучения, хотя принцип будет все тот же, разве что слегка другой интерфейс.
@elizabeth_harrypotter 5 месяцев назад
@@TheKirasabi аа, вот оно что, спасибо!
@user-ut9rq2ef3b 5 месяцев назад
@@TheKirasabi Я так понимаю этот способ не катит уже?(у меня просто вместо файла dataset на первом этапе по созданию в гугл колабе скачивается RVC_Cached
@TheKirasabi 5 месяцев назад
@@user-ut9rq2ef3b да, я на бусти уже выгрузил видос в открытый доступ с новым способом обучения, тут на ютубе видос будет 23 числа, но к сожалению он не идеален (сохраняет только последнюю epoch) т.е пишешь 500 эпочей и нужно ждать 500, резервные копии не делает в прогрессе обучения.
Есть видос на канале politress парнишка делал видос об обучении, но у кого-то данный способ работает у кого то (у меня и других - дропается обучение на 30-50 эпоче и приходится постоянно перезагружать колабу)
@user-ut9rq2ef3b 5 месяцев назад
@@TheKirasabi ок, понял, принял.
@grimemachine 7 месяцев назад
Всем привет!
TensorBoard не скачать(
@V29432 7 месяцев назад ⁺¹
Да. Файлы по ссылке не открываются.
@TheKirasabi 6 месяцев назад ⁺¹
Спустя месяц... но все же, откопал батники, пилю видос сегодня выгружу, можно будет скачать тензорбоард без проблем.
@grimemachine 6 месяцев назад
Сообщение не отправилось, спасибо большое за помощь, все летает.)
P.S. (Подписан соответственно, like пробит!)@@TheKirasabi
@nikolaydd6219 8 месяцев назад
индекс файл все порти
@TheKirasabi 8 месяцев назад
Индекс нужно выставлять в зависмости от качества модели. Даже если модель ультра хорошо обучена - не стоит выставлять высокие значения индекса. Ибо индекс это акцент.

Следующие

Автовоспроизведение

Новый способ установки RVC | Бан Ai Hub | Инфа о 3 части