Бесплатная онлайн-программа для локальной транскрибации аудио в текст с файла или микрофона
HTML-код
- Опубликовано: 7 фев 2025
- Запустил простое решение для транскрибации аудио.
Протестировать можно здесь: dewiar.com/spe...
Все новости, идеи и предложения в Телеграм: t.me/dewiarx
Если вы считаете, что то, чем я занимаюсь, полезно, и хотите меня поддержать, буду очень благодарен! Вот ссылка на донат:
www.paypal.com...
Спасибо за вашу поддержку! 🙏
Вы как всегда на высоте! Каждый ролик открытие!
Спасибо за отзыв. Буду стараться и дальше
Михаил, спасибо Вам большое за отличный, практичный материал!
Спасибо за отзыв 🤝
Михаил, громкость прекрасная! Содержание отличное! Спасибо!
Спасибо =)
Михаил, спасибо за хороший материал. 🙏👍
Спасибо Вам
Супер!
👍👍👍
Миша ты мой герой!!! Я ждал этого!!!
Леша, клево видеть твой комментарий! Супер!
Миша! Ты как всегда крут! Супер.🎉🎉🎉
Спасибо =)
Спасибо за видео, Жаль что без технических подробностей, ценю ваши ролики именно за них.
Спасибо. Не стал вдаваться, как-то поспешил. Использую VOSK сейчас, это открытое бесплатное решение. Пробую добавить еще WISPER, но пока не хочет работать(
Спасибо!
Вам спасибо за отзыв
Благодарю за труд, Михаил! Круто!
Существует ли обратное решение из текста в голос?
Естественно! Бесплатно, в интернете!
Я иду в эту сторону. Буду пробовать делать синтез голосов. Еще подхожу к этому вопросу
Интересно было бы изменить голос при помощи ИИ с сохранением интонации выдержки между словами как на исходном аудио (переозвучка аудио).
Это буду делать на следующем шаге, когда начнем синтезировать голоса
Говорил про Whisper - реализация на Vosk
Две большие разницы в точности и гибкости.
Абсолютно верно. Виспер я использую не здесь, а в конструкторе ассистентов на платформе Девиар. А локальный Виспер у меня на сервере не хочет работать, не могу понять почему.
попробовал загрузить файл мр3 . пишет. не может обнаружить текст в аудио.(а он там есть-песенка короткая))
Я несколько раз пересматривал код. Некоторые файлы действительно не может распознать.
подскажите, а почему вы используете именно воск? я решал эту задачу и остановился на виспер.
и ещё, какую модель вы бы посоветовали для распределения реплик между разными говорящими? ведь чтобы расшифровать например диалог нужно не просто транскрибировать, но определить кто сказал что.
Я думаю добавить Виспер, но на моем линукс убунту он никак не хочет работать, не могу понять почему. По остальным замечаниям, посмотрите мое новое видео, я добавил к Vosk нейросеть Gemma, и она частично решает то, что Вы описали
@ спасибо, проснулся и сразу посмотрел. Я использовал для решения этой задачи pyannote. Если вам несложно, скажите, чем вариант с гемма лучше?
@Bkloped да, Вы использовали специальный набор пакетов для диоризации, это хорошее решение. Я же пробую делать это через семантический анализ большой языковой модели.. для этого можно использовать любую нейросеть с хорошей поддержкой русского языка.. выбрал Gemma2 9b только поэтому.. Она хорошо справляется для своего размера.
@@MrDewiar спасибо
Михаил, извините, но онлайновое распознавание аудио совсем не интересно, поскольку неконфиденциально, поэтому для человеческих голосов не подходит.
Это все равно, что отправить в Интернет свои отпечатки пальцев.
Так что расказывайте лучше о Whisper, Vosk и т.п.
Все верно. Это решение сделано на Vosk. Работает на моем собственном сервере. И ее можно отделить для работы в закрытом контуре интранета.
Вы может и молодец, но проще сказать где это все скачивать, а не предоставлять отдельный API с командной сторокой.
Тем более на реплике цена цена юза 0.0005$ за секунду + патчи+ обновки. А это садомазо. Да патч за ВЕНОМА 9$ Но какие это ощущения)))
Так Вы можете спокойно все скачать на Гитхабе github.com/alphacep/vosk-api - проблема в том, что большинство пользователей не смогут это запустить самостоятельно. Я запустил на своем собственном сервере ,сделал доступным для все. Этим и делюсь
на подобии suno v4 есть что-нибудь?
Изучу вопрос, спасибо
Вот тот интелект ,что был показан в фильме Чаппи!Вот это есть интелект.А мы имеем дело с каким то набором алгоритмов.Которые себя ведут хаотично.Интелект это развитие.Достижение чего то.А не уничтожение всего в хаосе.Поведение и галлюцинирование этих всех преблуд явно показывает насколько это несамостоятельная вещь.Она не может существовать без коррекций действий человека.
Пока так, да. Надеюсь, скоро мы увидим то, что Вы описываете 👍
Так и многие люди такие. Есть вообще овощи... И что их после этого людьми не называть?
@romanbolgar 😄
Такой уже есть,
@@MrDewiar ты всетаки не понял о чем я написал.Именно потому что в начальной модели есть галлюцинации.Это полностью исключает возможность самостоятельного мышления.Потому что именно на начальном этапе должен быть стабильный процесс.А его нет.Когда гугл дипмайнд.Альфастар для старкрафта решил добывать гас через бункер.Потому что так быстрее.Это дало какой то эффект к самостоятельному развитию.Но это лишь в контексте игры основываясь на стратегии.Путем изучения огромного количество матчей.То есть грубо говоря база данных и алгоритмы путем поиска оптимального.
Надо будет попробовать. Как всегда нет времени. Правда не на чем пробовать. Мне надо транскрибировать текст в котором украинский и русский вперемешку. А здесь вообще только русский. Находил на других сайтах подобные решения И там даже был украинский ну такое то ограничение то работает а завтра не работает.... Лучше всего как-то попробовать оффлайн установить.
Я буду расширять языковую поддержку
У меня даже в телефоне голосовой набор есть.
Есть да, есть Спич АПИ браузерный, встроенный в Хром и другие браузеры.. но мне не нравится, не всегда надежно работает.
Есть же прекрасная транскрибация у Яндекса за копейки. Зачем пилить то, что не будет лучше.
Я добавлял Яндекс решение в конструктор ассистентов и... не прекрасная, у них нет преобразования файлов в нужный входящий формат.. и у них в несколько раз дороже, чем у того же wisper open ai. У Яндекса синтез голоса хороший, а транскрибация мне очень непонравилась, я пробовал.
Щтука😂
))
не работает вход на сайт((
У меня работает без проблем.
Периодически идут ддос атаки. Не знаю, кто так хочет все сломать, но пытаются)
А хочется наоборот - синтезировать аудио по srt-файлу с тайм-кодами, чтобы сделать аудиодорожку для полезных иноязычных видео.
Нужно и то и то)) Доберемся и до этого)