RVC Stalker Voices - демонстрация возможностей для сайта AP-Pro-ru

Warlock700

Просмотров 2,3 тыс.

108

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 7 фев 2025
Данный видеоролик создан специально для размещения на форуме Ap-Pro.ru
В нем показаны возможности всех уже созданных моделей, которые были дополнительно обработали во время записи оригинальной и конечной аудиодорожек.
Мои контакты:
VK: warlock700
Группа VK: warlock...
Модели RVC v.2: www.weights.gg...
Тема на Ap-Pro.ru: ap-pro.ru/foru...
Поддержать канал: www.donational...

Комментарии • 48

@mel_vlad_ev Год назад ⁺¹⁰
Такое ощущение, что бандиту, долговцу и сахарову не хватает эмоций.
А монолитовец звучит практически идеально.
@Warlock7OO Год назад ⁺¹
Долговца и Сахарова, скорее всего, делал уже в конце, когда устал. По бандитам - такая вышла модель. Она получилась грозно-блатной, в будущих версиях постараюсь это исправить.
@D.A.R.K_S.T.A.L.K.E.R 11 месяцев назад ⁺⁶
Некоторые голоса словно Геннадий Горин съедают буквы и окончания слов, но в целом это конечно будет огромный шаг в моддинге!
@Warlock7OO 11 месяцев назад ⁺²
Некоторые после пережатия ютубом пропали, оригинальные wav`ки звучали получше и отчетливее. Некоторыми мог сам плохо проговорить, либо случайно потереть шумодавом, а остальное уже RVC уже не смог обработать корректно.
Учитывая, что эти фразы оригинальные были наговорены со старанием, но где-то на процентов 70 и с каждым часом процентов по 10 запал пропадал, (а записи я делал минимум 3 часа) то нет ничего удивительного в конечном результате. А некоторые модели и вовсе надо по новой методике подготовки дата-сета переобучать...
@rocketcustoms3797 11 месяцев назад ⁺³
Русская озвучка на сталкер 2 с оригинальными голосами теперь возможна 🎉🎉🎉
@Warlock7OO 11 месяцев назад
Да, но при этом все равно потребуется работа профессиональных актеров озвучки, чтобы записать материал на русском языке.
Безусловно, можно машинный перевод и озвучку организовать, но и результат будет от этого соответствующий...
@напас_лавандос 11 месяцев назад ⁺¹¹
Сидорович предлагающий скидки это что-то нереальное
@Warlock7OO 11 месяцев назад
Так не за просто так же.) Тем более, что в "чистом небе" он уже такую скидку Шраму выдавал.
@the_exe151 Год назад ⁺⁴
Флинт и Монолитовец звучат будто прям из игры. Всё очень круто! А по поводу форума ap-pro, думаю было правильное решение создать там тему
@Warlock7OO Год назад ⁺¹
Еще бы добавил к этому списку рассказчика из ЗП. Связано это с тем, что эти модели тренировались с небольшим de-noise`ом, из-за чего те меньше выдают артефактов.
Со временем все остальные переобучу по тому же принципу.
Идея была не моей, а Вашей.) Все-таки на профильном форуме куда больше шансов, что функционал возможностей RVC дойдет до своего конечного пользователя. В вопросах информирования ютуб я немного переоценил...
@the_exe151 Год назад ⁺¹
@@Warlock7OO если редакторы ap-pro заметят вашу тему, то скорее всего опубликуют её в своей группе. Вот тогда можно будет вообще не беспокоится про информирование так сказать)
@Warlock7OO Год назад ⁺¹
@@the_exe151, было бы очень даже неплохо.) Хотя, наверное, если Wolfstalker запись отметить, то скорее всего он им скинет ссылочку поглядеть...)
Надеюсь, что все-таки выпущу за это время остальные модели и начну их улучшать к этому времени.
@PanzerKotwagen 11 месяцев назад ⁺²
Очень крутая работа, а по моему, лучше всех получился голос сталкера новичка из тч
Интересно, как бы озвучка Профа звучала
@Warlock7OO 11 месяцев назад
Спасибо за отзыв и реакцию. С эмоциальной точки зрения сталкеры и новички получились хорошо, но присутствуют артефакты при произношении и ощущение легкого акцента.
Это исправиться в следующих версиях, но пока что не могу сказать, что эти модели получились хорошо.
@konstantinfedorov2989 11 месяцев назад ⁺¹
Да это... находка!
@Warlock7OO 11 месяцев назад
Постараюсь голосовые модели улучшить, тогда вообще красота будет...)
@konstantinfedorov2989 11 месяцев назад ⁺¹
@@Warlock7OO это можно будет как-нибудь в модах использовать?
@Warlock7OO 11 месяцев назад
@@konstantinfedorov2989, естественно, более чем.) Скачивается RVC-Project, записывается речь, а затем преобразовывается любой желаемой голосовом моделью.
Можно, конечно, RVC-TTS (text-to-speech) использовать, но результат будет зачастую хуже преобразованной речи.
@konstantinfedorov2989 11 месяцев назад ⁺¹
@@Warlock7OO супер
@Grach_29 11 месяцев назад
Как же Монолит идеально получился
@Warlock7OO 11 месяцев назад ⁺¹
Согласен. На удивление, но модель действительно очень хорошо себя чувствует при преобразовании любого аудиофайла, даже вокала, что можно увидеть в этом ролике:
ruclips.net/video/SmkW35NK8R4/видео.html&t=
@Warlock7OO Год назад ⁺¹
Тема на форуме проходит модерацию. Ссылку я добавил, по которой она должна стать доступна, дополнительно напишу, когда тема будет одобрена.
@Warlock7OO Год назад
Тема на форуме удачно прошла модерацию и доступна по ссылке:
ap-pro.ru/forums/topic/8145-neyroset-rvc-golosovye-modeli-personazhey-stalkera/
В описании ролика она так же обновлена.
@catinthesmoke1679 10 месяцев назад
Озвучка диктора прекрасна
@Warlock7OO 10 месяцев назад
Как понимаю, речь о голосе, который озвучивает вступительную заставку и концовки Зова Припяти? Если да, то согласен - голосовая модель вышла, на мое удивление, очень качественной.
@BARSIK_FUN 11 месяцев назад
Я вот как раз подумал об идее, а что если создать озвучку всех диалогов
Не просто текст, как во всех сюжетных модов, а что-бы этот текст автоматически воспроизводился, и фокус был на самом персонаже который говорит
И внедрение самого ии в сталкер, генерация случайных диалогов у костра с подтекстом сталкера)
@Warlock7OO 11 месяцев назад
С озвучиванием всех диалогов трудностей возникнет значительно меньше, поскольку материал нужно сначала будет озвучить, а только в последствии преобразовать. А вот насчет преобразования в реальном времени, то я очень сомневаюсь, что это будет возможным, а даже если и возможно, то не факт, что результат при этом будет удовлетворяющим. Это потребуется не только внедрить в движок RVC, но еще и внедрять ChatGPT и любую test-to-speech читалку. Подобное не то, что в сталкерский движок будет невозможным внедрить, но даже в крупный AAA проект. А ресурсов все это дело тоже немерено будет потреблять, поэтому единственный вариант - это все перечисленное сгенерировать заранее, прописать скрипты вызова текста и привязать к аудиофрагментам. Эта задача хотя бы как то, но все-таки выполнима.
@BARSIK_FUN 11 месяцев назад
Вот как, спасибо за пояснения)
1.**Интеграция существующего API нейросети или создание собственной**: Сначала нужно выбрать или создать нейросеть, способную генерировать диалоги и музыку. Проекты как GPT-3 для текста и Jukebox от OpenAI для музыки показывают потенциал в этих областях.
2. **Тренировка нейросети**: При выборе готовой модели её нужно будет дообучить или настроить на требуемый контент - в данном случае на стилистику S.T.A.L.K.E.R., анекдоты и песни, которые могли бы быть свойственны игровой вселенной.
3. **Оптимизация для работы в реальном времени**: Нейросеть должна стать достаточно быстрой, чтобы обрабатывать запросы и выдавать результаты без заметных задержек для игроков.
4. **Синхронизация голосового вывода с анимацией персонажей**: Нужно будет тщательно отработать, чтобы генерируемая речь совпадала с анимацией движений ртов персонажей в игре.
5. **Подключение к игровым событиям**: Необходимо будет встроить систему глубже в игровой движок таким образом, чтобы нейросеть могла активироваться в определенных ситуациях игры, например когда сталкеры собираются у костра.
6. **Обработка языка**: Учитывая, что S.T.A.L.K.E.R. в основном использует русскоязычный контент, нейросеть должна быть способна работать с русским языком эффективно.
7. **Обеспечение соответствия контента правилам и настройкам игры**: Нужно гарантировать, что генерируемый контент соответствует атмосфере игры, а также не нарушает права и не содержит нежелательную информацию (например, оскорбительный или неуместный контент).
8. **Тестирование и дебаггинг**: Как и любая сложная система, внедрение нейросети потребует обширного тестирования и исправления ошибок.
На практике такая задача требует команды профессионалов в области искусственного интеллекта, программирования игровых движков и звукодизайна. Кроме того, может потребоваться поддержка или разрешение от правообладателей игры, а также изучение вопросов лицензирования и использования нейросетевых технологий.@@Warlock7OO
@Warlock7OO 11 месяцев назад ⁺¹
@@BARSIK_FUN, сразу видно, что Вы разбираетесь в теме.)
Мне кажется, что на текущем этапе все вышеозвученное маловероятно, поскольку RVC, особенно для преобразования русскоязычной речи, находиться в зачаточной стадии. Основным камнем преткновения является англоязычный претрейн, а так же модель hubert. Если первое возможно обойти и улучшить результат, используя ру-претрейн, то вот русскоязычную модель hubert пока не сделали. А даже если сделают, то ее еще необходимо внедрить правильно. Были у кого-то попытки и RVC отказывался работать с другими моделями. Возможно, что в будущем на этом поприще произойдут изменения в лучшую сторону.
То есть уже сейчас можно однозначно сказать, что как минимум на этом этапе, без привлечения профессионалов, такой проект спотыкается.
Text-to-speech читалки так же выдают не самые лучшие результаты. Безусловно, они очень хороши, но явно не справятся без стороннего руководства. То есть если какие-то акценты для заготовленного текста еще можно расставить, где-то тихо говорить, где-то громко, паузы и прочее, (причем далеко не каждая text-to-speech даже на это способна) то вот каким будет ее результат, когда та начнет читать сгененированные тексты - трудно представить.
Самая выполнимая, как мне кажется, вещь - это натренировать GPT-нейросеть, либо ее аналог, на выдачу контента в сеттинге Сталкера. Учитывая, что у нас на текущий момент есть неплохая GPT4ALL из локальных GPT нейросеток, но даже она плохо обрабатывает запросы не любом языке, кроме английского. Причина все та же - за ориентир был взят именно он.
Липсинг в сталкере не так важен, поскольку он отсутствует у большинства персонажей в игре. Они просто открывают рот при произношении фраз, а свои позы практически не меняют. Можно, конечно, прописать и привязать к конкретным триггерам анимации, при необходимости новые создать.
Комментировать каждый из пунктов я не буду, поскольку вывод при этом напрашивается лишь один - гораздо проще и целесообразнее создать игру с нуля, нежели внедрить все озвученные инструменты в игру, которая и без того держится изоленте...)
Для осуществления всего того, что было перечислено и на текущем этапе развития нейросетей, потребуется огромное количество человеческих ресурсов, при этом далеко не каждый из спецов в работе с ИИ и нейросетями готов будет за бесплатно тратить свое время на такой проект. Вопрос лицензирования в этом случае является вторичным, все будет зависеть от позиционирования проекта.
А учитывая, что даже RVC мало, кто заинтересовался, то затея на бумаге является золотым граалем, но на практике сделать не удастся даже треть без коммерческих вложений. Я бы еще добавил слово "огромных" к вложениям.
Поэтому получается, что самым простым вариантом из имеющихся является работа с нейросетями вне игры для создания:
Текста на фразы, анекдоты, байки, возможно даже, что сюжета с помощоью нейростети на основе GPT, желательно - преобученной в этом сеттинге;
Работа с текстурами, улучшения их качества и генерация новых объектов с помощью проектов, схожих с Stable Diffusion;
Озвучивание фраз энтузиастами сталкерского сообщества, с распределением ролей на основе наилучшего преобразования голоса конкретным участником.
Внедрение всего полученного, либо чего-то конкретного в саму игру - создание скриптов, привязка триггеров запуска и т.п.
При этом не обязательно, чтобы каждый из пунктов был выполнен. Даже если часть озвученного будет использована при создании модификаций, то со временем модострой гораздо выше поднимет свою планку, что будет огромный шагом в будущее и станет ориентиром для остальных мододелов.
@BARSIK_FUN 11 месяцев назад ⁺¹
Какой грамотный текст, я обалдел)@@Warlock7OO
@Warlock7OO 11 месяцев назад ⁺¹
@@BARSIK_FUN, взаимно.) Я тоже был весьма удивлен увидеть столь подробное описание процессов для потенциального внедрения нейросеток в сталкер.)
@modfactory-dev 11 месяцев назад ⁺¹
Прикольно, а как заказать у вас озвучку?
@Warlock7OO 11 месяцев назад
Можно попробовать...)
Пришлите мне в ВК текстовый материал, который необходимо озвучить и преобразовать с помощью RVC.
Затем сообщите, какую голосовую модель для преобразования использовать. Если необходимо несколько голосов, то обозначьте, где для каждого из них текст.
До 5 минут тестовый материал запишу, а дальше уже как пойдет.
@Amanehalast 10 месяцев назад ⁺¹
Это что то нереальное 😟 Это должно входить в инструмент X-ray
@Warlock7OO 10 месяцев назад
Боюсь, что X-ray тогда будет только "зеленого жука" выдавать.)
Поэтому пусть мододелы подхватят возможности, которые уже на текущий момент есть...)
@katergmod 11 месяцев назад ⁺¹
У бандита хуже всех голос
Монолит это вообще бот какой-то который текст озвучивает
@Warlock7OO 11 месяцев назад
С бандитами в курсе, да. Как не пытайся - все равно выходит грубый блатной голос, а не характерным тем бандитам, что мы знаем из сталкера.
К тому же с голосовой моделью бандитов нужно иметь недюжие умения игры голосом.
Модель я планировал переобучать, но сделаю это будет позднее, когда выпущу те что уже готовы, а так же ролик "как пользоваться RVC".
Монолит в принципе не особо эмоциональны из-за известных причин. Может быть, конечно, я переборщил с неэмоциональностью речи для них, но уверяю - озвучивал образцы для преобразования все самостоятельно, без использования ботов.
А так же это демонстрация возможностей, а не готовый дата-сет для нарезки и добавления в игру. Мой голос слишком статичен для озвучивания, поэтому я предоставляю инструменты, а кому они нужны будут - справятся успешно без меня.)
@katergmod 11 месяцев назад
@@Warlock7OO Не ну это видео достойно внимания мододелов
@Warlock7OO 11 месяцев назад ⁺¹
@@katergmod, тем более, что результаты не финальными. При обработке аудио перед обучением не осознавал, насколько важно было чистить дата-сет даже от минимального шума, поэтому модель рассказчика ЗП, монолита и Флинта имеет наименьшее количество так называемых "артефактов", даже с учетом того, что по ним мало материала. Надо - минут 10-20, а было - 4-7 минут.
@Артём-е4э7ъ 11 месяцев назад
надаже пасматрел
@Warlock7OO 11 месяцев назад
Эм... То есть? Можно более подробно и грамматически верно описать то, что Вы хотели сказать?
@ИльяПотемкин-р5б 11 месяцев назад ⁺¹
Я хочу попробовать тоже записать
@Warlock7OO 11 месяцев назад
Пока что я еще не готов предоставить собственную инструкцию, поэтому предлагаю воспользоваться гайдами других блоггеров:
Вам необходимо скачать программу RVC-Project, к примеру с официального репозитория разработчика:
huggingface.co/lj1995/VoiceConversionWebUI/tree/main
Если у Вас видеокарта от Nvidia с поддержкой CUDA ядер, то качайте архив RVC1006Nvidia.7z, а если AMD, либо нет CUDA ядер, то RVC1006AMD_Intel.7z.
После того, как архив скачан и распакован - запускаете .bat файл go-web.bat и перейдите на сервер RVC.
Чтобы было возможным подменять голос - модель нужно добавить. Необходимо файл расширения .pht переместить в папку ...\RVC\assets\weights, файл расширения .index советую разместить в папке ...\RVC\logs.
ruclips.net/video/lySCjN6DSLQ/видео.html&t=
Инструкция для Voice-Changer, так же с ютуба:
ruclips.net/video/3fUg85QyJKs/видео.html&t=

Следующие

Автовоспроизведение