RVC Stalker Voices - демонстрация возможностей для сайта AP-Pro-ru
HTML-код
- Опубликовано: 7 фев 2025
- Данный видеоролик создан специально для размещения на форуме Ap-Pro.ru
В нем показаны возможности всех уже созданных моделей, которые были дополнительно обработали во время записи оригинальной и конечной аудиодорожек.
Мои контакты:
VK: warlock700
Группа VK: warlock...
Модели RVC v.2: www.weights.gg...
Тема на Ap-Pro.ru: ap-pro.ru/foru...
Поддержать канал: www.donational...
Такое ощущение, что бандиту, долговцу и сахарову не хватает эмоций.
А монолитовец звучит практически идеально.
Долговца и Сахарова, скорее всего, делал уже в конце, когда устал. По бандитам - такая вышла модель. Она получилась грозно-блатной, в будущих версиях постараюсь это исправить.
Некоторые голоса словно Геннадий Горин съедают буквы и окончания слов, но в целом это конечно будет огромный шаг в моддинге!
Некоторые после пережатия ютубом пропали, оригинальные wav`ки звучали получше и отчетливее. Некоторыми мог сам плохо проговорить, либо случайно потереть шумодавом, а остальное уже RVC уже не смог обработать корректно.
Учитывая, что эти фразы оригинальные были наговорены со старанием, но где-то на процентов 70 и с каждым часом процентов по 10 запал пропадал, (а записи я делал минимум 3 часа) то нет ничего удивительного в конечном результате. А некоторые модели и вовсе надо по новой методике подготовки дата-сета переобучать...
Русская озвучка на сталкер 2 с оригинальными голосами теперь возможна 🎉🎉🎉
Да, но при этом все равно потребуется работа профессиональных актеров озвучки, чтобы записать материал на русском языке.
Безусловно, можно машинный перевод и озвучку организовать, но и результат будет от этого соответствующий...
Сидорович предлагающий скидки это что-то нереальное
Так не за просто так же.) Тем более, что в "чистом небе" он уже такую скидку Шраму выдавал.
Флинт и Монолитовец звучат будто прям из игры. Всё очень круто! А по поводу форума ap-pro, думаю было правильное решение создать там тему
Еще бы добавил к этому списку рассказчика из ЗП. Связано это с тем, что эти модели тренировались с небольшим de-noise`ом, из-за чего те меньше выдают артефактов.
Со временем все остальные переобучу по тому же принципу.
Идея была не моей, а Вашей.) Все-таки на профильном форуме куда больше шансов, что функционал возможностей RVC дойдет до своего конечного пользователя. В вопросах информирования ютуб я немного переоценил...
@@Warlock7OO если редакторы ap-pro заметят вашу тему, то скорее всего опубликуют её в своей группе. Вот тогда можно будет вообще не беспокоится про информирование так сказать)
@@the_exe151, было бы очень даже неплохо.) Хотя, наверное, если Wolfstalker запись отметить, то скорее всего он им скинет ссылочку поглядеть...)
Надеюсь, что все-таки выпущу за это время остальные модели и начну их улучшать к этому времени.
Очень крутая работа, а по моему, лучше всех получился голос сталкера новичка из тч
Интересно, как бы озвучка Профа звучала
Спасибо за отзыв и реакцию. С эмоциальной точки зрения сталкеры и новички получились хорошо, но присутствуют артефакты при произношении и ощущение легкого акцента.
Это исправиться в следующих версиях, но пока что не могу сказать, что эти модели получились хорошо.
Да это... находка!
Постараюсь голосовые модели улучшить, тогда вообще красота будет...)
@@Warlock7OO это можно будет как-нибудь в модах использовать?
@@konstantinfedorov2989, естественно, более чем.) Скачивается RVC-Project, записывается речь, а затем преобразовывается любой желаемой голосовом моделью.
Можно, конечно, RVC-TTS (text-to-speech) использовать, но результат будет зачастую хуже преобразованной речи.
@@Warlock7OO супер
Как же Монолит идеально получился
Согласен. На удивление, но модель действительно очень хорошо себя чувствует при преобразовании любого аудиофайла, даже вокала, что можно увидеть в этом ролике:
ruclips.net/video/SmkW35NK8R4/видео.html&t=
Тема на форуме проходит модерацию. Ссылку я добавил, по которой она должна стать доступна, дополнительно напишу, когда тема будет одобрена.
Тема на форуме удачно прошла модерацию и доступна по ссылке:
ap-pro.ru/forums/topic/8145-neyroset-rvc-golosovye-modeli-personazhey-stalkera/
В описании ролика она так же обновлена.
Озвучка диктора прекрасна
Как понимаю, речь о голосе, который озвучивает вступительную заставку и концовки Зова Припяти? Если да, то согласен - голосовая модель вышла, на мое удивление, очень качественной.
Я вот как раз подумал об идее, а что если создать озвучку всех диалогов
Не просто текст, как во всех сюжетных модов, а что-бы этот текст автоматически воспроизводился, и фокус был на самом персонаже который говорит
И внедрение самого ии в сталкер, генерация случайных диалогов у костра с подтекстом сталкера)
С озвучиванием всех диалогов трудностей возникнет значительно меньше, поскольку материал нужно сначала будет озвучить, а только в последствии преобразовать. А вот насчет преобразования в реальном времени, то я очень сомневаюсь, что это будет возможным, а даже если и возможно, то не факт, что результат при этом будет удовлетворяющим. Это потребуется не только внедрить в движок RVC, но еще и внедрять ChatGPT и любую test-to-speech читалку. Подобное не то, что в сталкерский движок будет невозможным внедрить, но даже в крупный AAA проект. А ресурсов все это дело тоже немерено будет потреблять, поэтому единственный вариант - это все перечисленное сгенерировать заранее, прописать скрипты вызова текста и привязать к аудиофрагментам. Эта задача хотя бы как то, но все-таки выполнима.
Вот как, спасибо за пояснения)
1.**Интеграция существующего API нейросети или создание собственной**: Сначала нужно выбрать или создать нейросеть, способную генерировать диалоги и музыку. Проекты как GPT-3 для текста и Jukebox от OpenAI для музыки показывают потенциал в этих областях.
2. **Тренировка нейросети**: При выборе готовой модели её нужно будет дообучить или настроить на требуемый контент - в данном случае на стилистику S.T.A.L.K.E.R., анекдоты и песни, которые могли бы быть свойственны игровой вселенной.
3. **Оптимизация для работы в реальном времени**: Нейросеть должна стать достаточно быстрой, чтобы обрабатывать запросы и выдавать результаты без заметных задержек для игроков.
4. **Синхронизация голосового вывода с анимацией персонажей**: Нужно будет тщательно отработать, чтобы генерируемая речь совпадала с анимацией движений ртов персонажей в игре.
5. **Подключение к игровым событиям**: Необходимо будет встроить систему глубже в игровой движок таким образом, чтобы нейросеть могла активироваться в определенных ситуациях игры, например когда сталкеры собираются у костра.
6. **Обработка языка**: Учитывая, что S.T.A.L.K.E.R. в основном использует русскоязычный контент, нейросеть должна быть способна работать с русским языком эффективно.
7. **Обеспечение соответствия контента правилам и настройкам игры**: Нужно гарантировать, что генерируемый контент соответствует атмосфере игры, а также не нарушает права и не содержит нежелательную информацию (например, оскорбительный или неуместный контент).
8. **Тестирование и дебаггинг**: Как и любая сложная система, внедрение нейросети потребует обширного тестирования и исправления ошибок.
На практике такая задача требует команды профессионалов в области искусственного интеллекта, программирования игровых движков и звукодизайна. Кроме того, может потребоваться поддержка или разрешение от правообладателей игры, а также изучение вопросов лицензирования и использования нейросетевых технологий.@@Warlock7OO
@@BARSIK_FUN, сразу видно, что Вы разбираетесь в теме.)
Мне кажется, что на текущем этапе все вышеозвученное маловероятно, поскольку RVC, особенно для преобразования русскоязычной речи, находиться в зачаточной стадии. Основным камнем преткновения является англоязычный претрейн, а так же модель hubert. Если первое возможно обойти и улучшить результат, используя ру-претрейн, то вот русскоязычную модель hubert пока не сделали. А даже если сделают, то ее еще необходимо внедрить правильно. Были у кого-то попытки и RVC отказывался работать с другими моделями. Возможно, что в будущем на этом поприще произойдут изменения в лучшую сторону.
То есть уже сейчас можно однозначно сказать, что как минимум на этом этапе, без привлечения профессионалов, такой проект спотыкается.
Text-to-speech читалки так же выдают не самые лучшие результаты. Безусловно, они очень хороши, но явно не справятся без стороннего руководства. То есть если какие-то акценты для заготовленного текста еще можно расставить, где-то тихо говорить, где-то громко, паузы и прочее, (причем далеко не каждая text-to-speech даже на это способна) то вот каким будет ее результат, когда та начнет читать сгененированные тексты - трудно представить.
Самая выполнимая, как мне кажется, вещь - это натренировать GPT-нейросеть, либо ее аналог, на выдачу контента в сеттинге Сталкера. Учитывая, что у нас на текущий момент есть неплохая GPT4ALL из локальных GPT нейросеток, но даже она плохо обрабатывает запросы не любом языке, кроме английского. Причина все та же - за ориентир был взят именно он.
Липсинг в сталкере не так важен, поскольку он отсутствует у большинства персонажей в игре. Они просто открывают рот при произношении фраз, а свои позы практически не меняют. Можно, конечно, прописать и привязать к конкретным триггерам анимации, при необходимости новые создать.
Комментировать каждый из пунктов я не буду, поскольку вывод при этом напрашивается лишь один - гораздо проще и целесообразнее создать игру с нуля, нежели внедрить все озвученные инструменты в игру, которая и без того держится изоленте...)
Для осуществления всего того, что было перечислено и на текущем этапе развития нейросетей, потребуется огромное количество человеческих ресурсов, при этом далеко не каждый из спецов в работе с ИИ и нейросетями готов будет за бесплатно тратить свое время на такой проект. Вопрос лицензирования в этом случае является вторичным, все будет зависеть от позиционирования проекта.
А учитывая, что даже RVC мало, кто заинтересовался, то затея на бумаге является золотым граалем, но на практике сделать не удастся даже треть без коммерческих вложений. Я бы еще добавил слово "огромных" к вложениям.
Поэтому получается, что самым простым вариантом из имеющихся является работа с нейросетями вне игры для создания:
Текста на фразы, анекдоты, байки, возможно даже, что сюжета с помощоью нейростети на основе GPT, желательно - преобученной в этом сеттинге;
Работа с текстурами, улучшения их качества и генерация новых объектов с помощью проектов, схожих с Stable Diffusion;
Озвучивание фраз энтузиастами сталкерского сообщества, с распределением ролей на основе наилучшего преобразования голоса конкретным участником.
Внедрение всего полученного, либо чего-то конкретного в саму игру - создание скриптов, привязка триггеров запуска и т.п.
При этом не обязательно, чтобы каждый из пунктов был выполнен. Даже если часть озвученного будет использована при создании модификаций, то со временем модострой гораздо выше поднимет свою планку, что будет огромный шагом в будущее и станет ориентиром для остальных мододелов.
Какой грамотный текст, я обалдел)@@Warlock7OO
@@BARSIK_FUN, взаимно.) Я тоже был весьма удивлен увидеть столь подробное описание процессов для потенциального внедрения нейросеток в сталкер.)
Прикольно, а как заказать у вас озвучку?
Можно попробовать...)
Пришлите мне в ВК текстовый материал, который необходимо озвучить и преобразовать с помощью RVC.
Затем сообщите, какую голосовую модель для преобразования использовать. Если необходимо несколько голосов, то обозначьте, где для каждого из них текст.
До 5 минут тестовый материал запишу, а дальше уже как пойдет.
Это что то нереальное 😟 Это должно входить в инструмент X-ray
Боюсь, что X-ray тогда будет только "зеленого жука" выдавать.)
Поэтому пусть мододелы подхватят возможности, которые уже на текущий момент есть...)
У бандита хуже всех голос
Монолит это вообще бот какой-то который текст озвучивает
С бандитами в курсе, да. Как не пытайся - все равно выходит грубый блатной голос, а не характерным тем бандитам, что мы знаем из сталкера.
К тому же с голосовой моделью бандитов нужно иметь недюжие умения игры голосом.
Модель я планировал переобучать, но сделаю это будет позднее, когда выпущу те что уже готовы, а так же ролик "как пользоваться RVC".
Монолит в принципе не особо эмоциональны из-за известных причин. Может быть, конечно, я переборщил с неэмоциональностью речи для них, но уверяю - озвучивал образцы для преобразования все самостоятельно, без использования ботов.
А так же это демонстрация возможностей, а не готовый дата-сет для нарезки и добавления в игру. Мой голос слишком статичен для озвучивания, поэтому я предоставляю инструменты, а кому они нужны будут - справятся успешно без меня.)
@@Warlock7OO Не ну это видео достойно внимания мододелов
@@katergmod, тем более, что результаты не финальными. При обработке аудио перед обучением не осознавал, насколько важно было чистить дата-сет даже от минимального шума, поэтому модель рассказчика ЗП, монолита и Флинта имеет наименьшее количество так называемых "артефактов", даже с учетом того, что по ним мало материала. Надо - минут 10-20, а было - 4-7 минут.
надаже пасматрел
Эм... То есть? Можно более подробно и грамматически верно описать то, что Вы хотели сказать?
Я хочу попробовать тоже записать
Пока что я еще не готов предоставить собственную инструкцию, поэтому предлагаю воспользоваться гайдами других блоггеров:
Вам необходимо скачать программу RVC-Project, к примеру с официального репозитория разработчика:
huggingface.co/lj1995/VoiceConversionWebUI/tree/main
Если у Вас видеокарта от Nvidia с поддержкой CUDA ядер, то качайте архив RVC1006Nvidia.7z, а если AMD, либо нет CUDA ядер, то RVC1006AMD_Intel.7z.
После того, как архив скачан и распакован - запускаете .bat файл go-web.bat и перейдите на сервер RVC.
Чтобы было возможным подменять голос - модель нужно добавить. Необходимо файл расширения .pht переместить в папку ...\RVC\assets\weights, файл расширения .index советую разместить в папке ...\RVC\logs.
ruclips.net/video/lySCjN6DSLQ/видео.html&t=
Инструкция для Voice-Changer, так же с ютуба:
ruclips.net/video/3fUg85QyJKs/видео.html&t=