Как проанализировать обученную модель и повысить точность распознавания речи| TensorBoard это просто

baiyya

Просмотров 7 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 30 сен 2024
Дорогие друзья, приветствую вас на моем канале!
Сегодня я расскажу, как использовать инструмент TensorBoard для анализа и оптимизации обученных моделей распознавания речи. В этом уникальном видео вы узнаете, как визуализировать процесс обучения, находить узкие места в архитектуре модели и повышать точность распознавания с помощью TensorBoard.
Я протестировал и тщательно проанализировал популярные модели для распознавания и синтеза речи - Crepe, Dio, Harvest, Mango-Crepe и PM. Каждая модель тренировалась в течение 600 эпох, всего на эксперименты ушло более 40 часов кропотливой работы.
В этом видео вы увидите подробное сравнение точности, скорости обучения, стабильности и других ключевых метрик для этих моделей. Я покажу результаты многочисленных тестов и определю, какая из моделей демонстрирует наилучшие показатели в конкретных условиях.
Особое внимание я уделил важной проблеме переобучения модели. Вы узнаете, как распознать переобучение и какими методами его можно предотвратить, чтобы оптимизировать процесс распознавания речи. Для демонстрации переобученности модели, было сделано обучение модели на 2000 эпох, в видео я вам покажу что из этого вышло.
В видео я также подробно остановлюсь на следующих моментах:
Как анализировать ошибки модели в tensorboard и улучшать архитектуру
Рекомендации по предобработке данных для обучения модели
Советы по оптимизации вычислительных ресурсов при тренировке больших моделей
Это видео содержит ценную информацию, которая поможет разработчикам голосовых помощников, исследователям в области распознавания речи и всем, кто интересуется ML.
Подписывайтесь на канал, ставьте лайк, оставляйте комментарии и задавайте вопросы - я с радостью на них отвечу! Приятного просмотра!
Команды для установки tensorboard:
python -m venv venv
.\venv\Scripts\activate
pip install tensorboard
tensorboard --logdir logs
Ccылка на исследование DiffGrad: / meet-diffgrad-new-deep...
Ссылка на телеграм канал: t.me/ba1yya
Ссылка на чат телеграм: t.me/ba1yya_chat
Можете поддержать мой контент тут: boosty.to/ba1yya
теги-
ai cover, ai, so vits svc, cover, ai cover tutorial, how to ai cover, kanye west, нейросеть, how to make an ai cover, make ai cover, how to make ai cover, artificial, tutorial, how to make an ai cover tutorial, how to make a cover with ai, intelligence, how to make a song with ai, so-vits-svc, tutorial how to make an ai cover, ai voice, sovitssvc, модель голоса, vits svc, делаем модель голоса, как сделать голос colab, so-vits-svc 4.0, модель голоса google colab, делаем ai cover, своя модель голоса, mashup, so-vits-svc туториал, sovitssvc tutorial, so vits svc туториал, so-vits-svc google colab, so vits svc на андроид, мешап, как сделать модель голоса, so-vits-svc модель, so-vits, so-vits-svc как сделать свою модель, модель голоса сделать, мэшап, как сделать свою модель голоса, how to make kanye's voice, как сделать ai cover, how to make ai cover songs, кавер, ии, tinybunny, нейромэшап, aicover, нейрокавер, remix, искусственный интеллект, ai music, mashup.hk, mashup hk, lil t4k, music, #mashup, ai song tutorial, ai cover songs, how to ai cover tutorial, how to ai voice cover, ремикс, so vits svc tutorial, soviets svc tutorial, ai vocal tutorial, lil uzi vert ai, diff svc, sovits, how to use so vits svc, rvc, rvc tutorial, rvc ai, how to use rvc, new ai, how, bts, rvc ai cover, ghost, gotye, to, create, make, error google colab ai, спела, поет, за деньги да, кавер куплинов, ai нейросеть, винни пух, курт кобеин, kuplinov, best ai voice generator, аи кавер, как сделать кавер, ai мэшапы, как делать нейромэшапы?! / как сделать голос моргенштерна? | ai cover, musicfy ai, ai cover song, голоса знаменитостей, голос моргенштерна, как делать мэшапы, нейромешапы, как делать нейромэшапы, как, голоса артистов, remov, ai cover songs drake, rap, chatgpt, open ai, хип хоп, ai art, миджорни, нейросети, канье уэст, ai covers, ai generated music, скам, trends, ai rap, моргенштерн мэшап, мэшапы это, как сделать кавер найросетью, где взять модели для ai cover?, что сейчас популярно на ютубе, anighost, анигост, нейросеть моргенштерн, моргенштерн нейросеть слив трека, , оксимирон мэшапы, мэшапы, мэшап с нейросетью, мэшапы слушать, оксимирон нейросеть, трек с нейросетью, куплинов cover, нейросеть поет,drake, rihow, #озвучка, #озвучка_видео, #озвучивание, #голос, #изменение_голоса, #голосовые_эффекты, #кагл, #кагл_озвучка, #машинное_обучение, #искусственный_интеллект, #айти, #it, #программирование, #python, #ютуб, #ютубер, #лайфхак, #обучение, #селфдевелопмент, #kaggle, #RVC, #визуализациямоделей

Комментарии • 98

@Морпех_69 Год назад ⁺⁷
C:\RVC_new> tensorboard --logdir logs
tensorboard : Имя "tensorboard" не распознано как имя командлета, функции, файла сценария или выполняемой программы. Проверьте правильность написания имени, а также наличие и правильность пути, после чего повторите попытку.
строка:1 знак:1
+ tensorboard --logdir logs
+ ~~~~~~~~~~~
+ CategoryInfo : ObjectNotFound: (tensorboard:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException
такая ошибка не где нет ответов как её исправить, не подскажешь как исправить ?
@VadimID 10 месяцев назад ⁺⁵
10:34 Какая эпоха соответствует шагам на графике можно увидеть в папке weights. Там прописана эпоха, а рядом шаг в названии файла.
@Ikkert 7 месяцев назад
11:00 братан ну прекрати ты говорить ХАРД ВЕСТ! У тебя выходит какой то жесткий запад вместо ХАРВЕСТ - в переводе плодотворный! А не урожай )
@supersonicunitedsupersonic8531 10 месяцев назад ⁺¹
@baiyya, сейчас rmvpe (rmvpe_gpu) добавился. сравнивали с harvest?
@Никита-ф1ж2ь Год назад ⁺⁴
Спасибо большое за твой огромный труд.
@vadddd_1 9 месяцев назад
А каким образом можно установить этот diffgrad? А то я что то не понял видимо, не понимаю что куда писать :(
@lomert Год назад
можешь объяснить что обозначают и делают harvest, crepe, mangio crepe
@ba1yya Год назад
Делят аудио на части твое. Каждый разным методом
@lomert Год назад ⁺¹
сделай видео как работать с tensorboard в гугл колабе
@ba1yya Год назад
Точно так же. Загрузить модель и включить его
@lomert Год назад
@@ba1yya понял, спасибо большое
@aigitarist Год назад ⁺¹
Спасибо огромное! Молодец👍
@oleksiihvozdiev6702 Год назад ⁺¹
200-300 эпох -какого длинны звукового файла будет достаточно?
@ba1yya Год назад
Ну я же в видео сказал. Не длинна главное файла, а ширина голоса кака я нем. Иногда и для минутного файла нужно 500 эпох, а иногда для 15 минутного 300 хватит.
@herog3412 Год назад ⁺¹
Огромное тебе спасибо . Действительно делаешь очень полезные видео
@Timur_Akhmetshin Год назад ⁺¹
Спасибо большое за помощь! Благодаря вам я смог сделать свои первые модели!
@lomert Год назад
ещё появились такие вопросы: если по итогу натренировал модель допустим как раз таки до 2000 эпох, смотришь на график и понял, что модель перетренировалась и надо было останавливать к примеру вообще на 500 эпохе, то теперь нужно будет заново тренировать модель с теми же аудиофайлами, с тем же методом и выставить как раз таки 500 эпох? это будет так работать или уже начиная заново тренировать могут быть другие условности?
@ba1yya Год назад
Могут быть другие. Но они не критичны. Эпохи через сколько делать сохранения для этого и есть этот ползунок, чтобы потом нужную эпоху если что вытащить. 5-10 там поставить, потом проанализировать и вытащить что надо
@МаксимПутютин Год назад
Нет, перед тем как подменять голос просто выберешь нужную, лучшую эпоху
@Watching_you_illuminatus 11 месяцев назад
Не работает. ".\venv\Scripts\activate" не распознано как имя командлета"
@Дейман-м6х 8 месяцев назад
Здравствуйте, подскажите пожалуйста на какой лучше обращать финальный результат на графике?
У меня сильно расходятся данные, на графике loss/g/fm показывает лучшее значение 1400 далее он только ползёт вверх, а главный график loss/g/total показывает лучший результат на отметке 2000.
В вашем видео, когда вы рассказывали подробно про графики у вас тоже было видно, что на графике loss/g/fm лучший показатель примерно я предположу на отметке 1000, а дальше показатели ушли вверх, а на графике loss/g/total он у вас ушёл дальше, и лучший результат на отметке 7000 в самом конце и это ещё не предел я так понимаю показатели могли быть ещё лучше, если бы вы дальше продолжили тренировать
@MrMaximevgenevich Год назад
Разбери пожалуйста тему как улучшить качество орфографии, очень часто путаются буквы Р Ж Л, есть какой-то метод пофиксить такие проблемы?
@vinskiy8314 Год назад ⁺¹
Что делать если в VS Studio вылезает ошибка что этой команды не существует?
@ba1yya Год назад
Python значит не установлен. К первому видео тоже отсылка
@DenisovVadim Год назад ⁺¹
правой кнопокой по пуску Windows power shell(администратор) пишешь Set-ExecutionPolicy Unrestricted -Scope CurrentUser ентер пишешь Y ентер
@A70208 Год назад
@@DenisovVadim Спасибо, пропала ошибка
@viknew7413 Год назад ⁺¹
У меня почему-то пишет об ошибках, какая может быть причина?
PS C:
vc> python -m venv venv
Python
PS C:
vc> .\venv\Scripts\activate
.\venv\Scripts\activate : Имя ".\venv\Scripts\activate" не распознано как имя командлета, функции, файла сценария или выполняемой программы. Проверьте правильность написания имени, а также наличие и правильность пути, после чего повторите попытку.
строка:1 знак:1
+ .\venv\Scripts\activate
+ CategoryInfo : ObjectNotFound: (.\venv\Scripts\activate:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException

PS C:
vc> pip install tensorboard
pip : Имя "pip" не распознано как имя командлета, функции, файла сценария или выполняемой программы. Проверьте правильность написания имени, а также наличие и правильность пути, после чего повторите попытку.
строка:1 знак:1
+ pip install tensorboard
+ ~~~
+ CategoryInfo : ObjectNotFound: (pip:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException

PS C:
vc> tensorboard --logdir logs
tensorboard : Имя "tensorboard" не распознано как имя командлета, функции, файла сценария или выполняемой программы. Проверьте правильность написания имени, а также наличие и правильность пути, после чего повторите попытку.
строка:1 знак:1
+ tensorboard --logdir logs
+ ~~~~~~~~~~~
+ CategoryInfo : ObjectNotFound: (tensorboard:String) [], CommandNotFoundException
+ FullyQualifiedErrorId : CommandNotFoundException
@ba1yya Год назад
Пайтон криво встал. Там у кого то подобное в коментах было. Поищи
@МаксимПутютин Год назад ⁺¹
@@ba1yyaРугается. После команды "tensorboard --logdir logs" пишет "from six import with_metaclass, viewkeys" "ModuleNotFoundError: No module named 'six'.
Не подскажешь, что не так?
@somrefscrep9 Год назад
@@МаксимПутютин pip install six
@mistertim5639 Год назад
Привет! Можешь пожалуйста сказать что такое . kcpt файл и зачем он вообще нужен, простоя вообще 0 в програмировании и не понимаю нифига(((
@denistyan227 11 месяцев назад
Большое спасибо за информацию по Tensorboard
@VertexChannel1 Год назад ⁺¹
В видео ты говоришь,что для того,чтобы узнать нужный epoch,нужно взять нужный шаг на графике и поделить на 12.У меня последний шаг на графике 6400 / 12 = 533,хотя epoch у меня всего 150.Так как правильно узнать?
@ba1yya Год назад
6400/150 логично же)
@ba1yya Год назад
Скрипт просто обновлен там другие значению уже. Да)
@VertexChannel1 Год назад
Спасибо.Я так и думал,просто ты сказал 12 и человек в комментариях тоже написал,что у него 12.))@@ba1yya
@ba1yya Год назад
@@VertexChannel1 раньше у всех 12 было) сейчас по разному
@МаксимПутютин Год назад
Ругается. После команды "tensorboard --logdir logs" пишет "from six import with_metaclass, viewkeys" "ModuleNotFoundError: No module named 'six'
@somrefscrep9 Год назад ⁺¹
pip install six
@A70208 Год назад
@@somrefscrep9 Спасибо
@swiftwind9322 Год назад
Огромное человеческое спасибо! Колоссальный труд был проделан, зато теперь всё понятно: какую модель выбирать при тренировки и сколько эпох делать.
@ShelbyPsycho 8 месяцев назад
Баяш ты самый топовый человек в мире!!!
@goodle5401 Год назад
Я может чего не понимаю, но команда .\venv\Scripts\activate не работает, выдает ошибку. Собственно последующие тоже
@ba1yya Год назад
Пайтон не установлен
@eduardmart1237 6 месяцев назад
А как ее то к модели подключить?
@GANSWINGER Год назад
не знаю, удаляются ли коменты сами по себе, так как не нахожу их после обвновления страницы, автор, поставь сердечко плиз, чтобы у меня выскочило уведомление что все ок, вопрос такой, у тебя в видосе 5600 шаг - какая это эпоха ? как это считать ?
@ba1yya Год назад
В папки вейтингс после эпохи стоит указание шага. Его подели на эту эпоху и узнаешь свою размерность
@fura9200 Год назад
Можно ли будет проанализировать модели, которые тренировались до установки TensorBoard? И если да, то какие файлы ему нужны, только pth и index или что-то ещё?
@ba1yya Год назад
В тг в чат зайди, скрин скину. По сути там несколько файлов из папки лог только нужно
@nikolaydd6219 Год назад
14:00 Бро, ты смотришь статистику по CIFA10 это совершенно не такая нейросеть и показатели могут быть кардинально другие. Но если кто поэкспериментирует и скажет нам - будет интересно посмотреть))
@ba1yya Год назад
Видел реализацию этой модели в rvc показатели на 5-6% лучше)
@AlexVelger Год назад
Вы обещали инструкцию как в FL создать AI кавер не отличимый от человека. :)
@ba1yya Год назад ⁺⁶
Какой смысл в этом уроке если голос будет перетренерован или недотренерован) сначала база, потом все остальное)
@MsBomzi Год назад
Спасибо за проделанную работу
@Вика-ъ7й6я Год назад
А на что влияет crepe_hop_length? И нужно ли разрезать файлы перед загрузкой в RVC?
@ba1yya Год назад
На 64 ставь и не парься. На сколько резко может голос от одного тембра к другому перейти. Артисты так голоса не меняют в принципе никто резко. Поэтому 64. Чем меньше значение тем точнее он порежет файлы, но и тем дольше время обработки будет.
Можно одной дорожкой все закинуть в принципе, он сам там разберется, главное чтобы пауз не так много было
@Вика-ъ7й6я Год назад
@@ba1yya спасибо. А то я где-то слышала, что надо по аналогии с SVC по 10 секунд нарезать, но во время второго этапа видела, что RVC сам создаёт wav файлы.
@Eugene53 Год назад
А можно ли в одном датасете использовать одновременно голос из пения и простого разговора? Если нет, то лучше использовать пение или простой разговор для обучения?
@klimlp Год назад ⁺¹
Можно, но есть одно НО. Если в датасее будет много "разговора", то нейросеть усреднит полученные значения и финальная модель может станет менее эмоциональной в плане передачи вокала. Поэтому если вам нужна разговорная модель, то лучше сделать её отдельно, она получится более качественной.
@BikutaPankeki Год назад ⁺¹
Я так и не понял на что нужно делить)))
@BikutaPankeki Год назад ⁺¹
A Все понял. Пацаны, кто еще не понял. Если у вас сохраняется к примеру каждые 50 эпох. То в Файле будет name_e50_s600.pth. Просто делите s (600) на e (50). В моем случае это 12.
@BikutaPankeki Год назад ⁺¹
И потом на графике ищите самый низкий. Там будет step n. У меня это 9800 я просто поделил на 12. Получается что мне хватило бы 817 эпох. Датасет очень хороший достал) С чистым звуком. И более менее хорошим диапазоном
@ba1yya Год назад
У всех на 12 делить надо, да
@BikutaPankeki Год назад
@@ba1yya А такой вопрос. А можно как-то из модели в 1200 эпох вытащить именно 817?
@ba1yya Год назад
@@BikutaPankeki нет. Если только промежуточные сохранения есть с 800 до 817 дотренить можно)
@ErehMV Год назад
Я слышал что можно тренить моделки на rvmpe, и они лучше harvest, это правда?
@ba1yya Год назад
Видел что преобразование им можно делать. Для тренировки не видел еще
@ErehMV Год назад ⁺¹
@@ba1yya В общем, натренировал свою модель на rmvpe, и получилось даже очень круто, но много мороки. Надеюсь добавят rmvpe в качестве тренировки, на лёгкую версию rvc
@ВоробейАлл Год назад
бро ты лучший. Ты самоучка ?
@ba1yya Год назад ⁺²
Ну техническое образование есть. Это было как хороший фундамент, чтобы в этом потом самому разобраться)
@rockmarks1094 Год назад
Подскажи а как проанализировать модель, сделанную в кагле (не на ПК а в виртуальной среде)?
@ba1yya Год назад
Пока никак. Чуть позже расскажу какие есть варианты
@rockmarks1094 Год назад
@@ba1yya Спасибо за ответ и Ваши гайды, ждем!:)
@swiftwind9322 Год назад
Ждём!
@СергейЛеонов-ч6ю Год назад
Спасибо!
@ErehMV Год назад
УРААА, я дождался
@deepfakeru Год назад
спасибо, интересно,
про параметры "в среднем по больнице" понятно, но всё же хотелось бы узнать, в каких случаях нужно использовать другие модели, в каких случаях стоит поднять количество эпох, а где можно и уменьшить
@ba1yya Год назад
Все на графиках. Всегда харвест, эпох больше можно если следующий экстремум ниже предыдущего. Но таковое навряд ли будет)
@clwnmsk Год назад ⁺²
все зависит от ваших целей, ресурсов, времени и датасета. Если нужна качественная модель голоса, приближенная к оригиналу (насколько это возможно), при этом готовы подождать, то вы выбираете harvest, ставите оптимальное кол-во эпох, как правило бывает достаточно 200-400, в зависимости от диапазона тона голоса(ов) в вашем датасете. Если вам нужно сделать быстро при низком качестве конечной модели, учитывая, что ваш датасет состоит из образцов низкого качества звучания - узкий диапазон тонов, плохая дикция, посторонние шумы, вы ставите dio или pm, примерно до 100 эпох. Это условные значения, приближенные к реальности, которая у каждого своя на основе ваших целей, ресурсов, времени и датасета. Автор в видео действительно дал очень важные представления об очень полезном инструменте, особенно для новичков. Используя график и бэкап прогресса через определенно кол-во эпох (в цикле, через каждые N эпох) обучения, вы всегда можете отследить лучший прогресс обучения и вернуться к той эпохе обучения, на которой был достигнут лучший результат. Автор об этом не сказал, но это висит в контексте того, о чем он вообще говорил.
@СергейКот-ш8г 10 месяцев назад
@@clwnmskЗдравствуйте, подскажите как вернуться к той эпохе на которой был лучший результат?
@Timur_Akhmetshin Год назад
Жду не дождусь
@K-A_Z_A-K_S_URALA 11 месяцев назад
Respect
@K-A_Z_A-K_S_URALA 11 месяцев назад
а последующие разы как запускать так же все прописывать?..
@K-A_Z_A-K_S_URALA 11 месяцев назад
все понял пересмотрел....\venv\Scripts\activate ...tensorboard --logdir logs
@SbIN_GITLEPA Год назад
Не знаю почему, но у меня на этапе установки виртуальной среды ничего не происходит, то есть когда я пишу в терминал python -m venv venv, мне пишет Python, если пишу потом .\venv\Scripts\activate, то выдается ошибка. RVC скачивал с последнего видео, который с rmvpe. В самом vscode все расширения выключил на всякий. Пытался смотреть гайды, но я в этом не особо разбираюсь, так что ничего не понял.
@ba1yya Год назад
Пайтон не установлен. Или в переменную среду path не встал. Посмотри в интернете как его туда поставить и поставь
@SbIN_GITLEPA Год назад
@@ba1yya вроде как python устанавливал, остальное щас чекну
@SbIN_GITLEPA Год назад
@@ba1yya не совсем понял про path. Я открыл переменные среды и там есть переменная Path и путь к ней, её изменить как-то нужно?
@SbIN_GITLEPA Год назад
@@ba1yya python переустановил на всякий случай, все равно выдает ошибку
.\venv\Scripts\activate : Имя ".\venv\Scripts\activate" не распознано как имя командлета, функци
и, файла сценария или выполняемой программы. Проверьте правильность написания имени, а также нал
ичие и правильность пути, после чего повторите попытку.
@ba1yya Год назад
@@SbIN_GITLEPA в интернете посмотри как питон к этой переменной среде добавить
@rombrqn Год назад
Привет. Сделай пожалуйста рамку на видео с острыми углами и без теней, это будет лучше для восприятия!

Следующие

Автовоспроизведение

Артефакты и ошибки голосовых моделей на RVC: в чем причина? | Как тренировалась базовая модель?