Бесплатная онлайн-программа для локальной транскрибации аудио в текст с файла или микрофона

Михаил Исаев

Просмотров 2,9 тыс.

188

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 7 фев 2025
Запустил простое решение для транскрибации аудио.
Протестировать можно здесь: dewiar.com/spe...
Все новости, идеи и предложения в Телеграм: t.me/dewiarx
Если вы считаете, что то, чем я занимаюсь, полезно, и хотите меня поддержать, буду очень благодарен! Вот ссылка на донат:
www.paypal.com...
Спасибо за вашу поддержку! 🙏

Комментарии • 59

@НаБерлин-у2ч Месяц назад ⁺²
Вы как всегда на высоте! Каждый ролик открытие!
@MrDewiar Месяц назад
Спасибо за отзыв. Буду стараться и дальше
@bondar_alex Месяц назад ⁺²
Михаил, спасибо Вам большое за отличный, практичный материал!
@MrDewiar Месяц назад
Спасибо за отзыв 🤝
@Почемучка-л8б Месяц назад ⁺³
Михаил, громкость прекрасная! Содержание отличное! Спасибо!
@MrDewiar Месяц назад
Спасибо =)
@webcob Месяц назад ⁺¹
Михаил, спасибо за хороший материал. 🙏👍
@MrDewiar Месяц назад
Спасибо Вам
@dewiar_org Месяц назад ⁺²
Супер!
@MrDewiar Месяц назад
👍👍👍
@АлексейОмельянюк-ю9т Месяц назад ⁺¹
Миша ты мой герой!!! Я ждал этого!!!
@MrDewiar Месяц назад
Леша, клево видеть твой комментарий! Супер!
@marketplace_LiveGood Месяц назад ⁺¹
Миша! Ты как всегда крут! Супер.🎉🎉🎉
@MrDewiar Месяц назад
Спасибо =)
@Constantine.. Месяц назад ⁺¹
Спасибо за видео, Жаль что без технических подробностей, ценю ваши ролики именно за них.
@MrDewiar Месяц назад
Спасибо. Не стал вдаваться, как-то поспешил. Использую VOSK сейчас, это открытое бесплатное решение. Пробую добавить еще WISPER, но пока не хочет работать(
@sve41794833 Месяц назад ⁺¹
Спасибо!
@MrDewiar Месяц назад
Вам спасибо за отзыв
@VoltMotoTech Месяц назад ⁺¹
Благодарю за труд, Михаил! Круто!
Существует ли обратное решение из текста в голос?
@LetterBoss-x8o Месяц назад
Естественно! Бесплатно, в интернете!
@MrDewiar Месяц назад ⁺¹
Я иду в эту сторону. Буду пробовать делать синтез голосов. Еще подхожу к этому вопросу
@Without_Martingale Месяц назад ⁺¹
Интересно было бы изменить голос при помощи ИИ с сохранением интонации выдержки между словами как на исходном аудио (переозвучка аудио).
@MrDewiar Месяц назад
Это буду делать на следующем шаге, когда начнем синтезировать голоса
@hottab.clubber Месяц назад ⁺¹
Говорил про Whisper - реализация на Vosk
Две большие разницы в точности и гибкости.
@MrDewiar Месяц назад
Абсолютно верно. Виспер я использую не здесь, а в конструкторе ассистентов на платформе Девиар. А локальный Виспер у меня на сервере не хочет работать, не могу понять почему.
@СеливановВасилий Месяц назад ⁺¹
попробовал загрузить файл мр3 . пишет. не может обнаружить текст в аудио.(а он там есть-песенка короткая))
@MrDewiar 25 дней назад
Я несколько раз пересматривал код. Некоторые файлы действительно не может распознать.
@Bkloped Месяц назад ⁺¹
подскажите, а почему вы используете именно воск? я решал эту задачу и остановился на виспер.
и ещё, какую модель вы бы посоветовали для распределения реплик между разными говорящими? ведь чтобы расшифровать например диалог нужно не просто транскрибировать, но определить кто сказал что.
@MrDewiar Месяц назад ⁺²
Я думаю добавить Виспер, но на моем линукс убунту он никак не хочет работать, не могу понять почему. По остальным замечаниям, посмотрите мое новое видео, я добавил к Vosk нейросеть Gemma, и она частично решает то, что Вы описали
@Bkloped Месяц назад ⁺¹
@ спасибо, проснулся и сразу посмотрел. Я использовал для решения этой задачи pyannote. Если вам несложно, скажите, чем вариант с гемма лучше?
@MrDewiar Месяц назад ⁺²
@Bkloped да, Вы использовали специальный набор пакетов для диоризации, это хорошее решение. Я же пробую делать это через семантический анализ большой языковой модели.. для этого можно использовать любую нейросеть с хорошей поддержкой русского языка.. выбрал Gemma2 9b только поэтому.. Она хорошо справляется для своего размера.
@Bkloped Месяц назад
@@MrDewiar спасибо
@ВикторЛ-щ2т Месяц назад ⁺¹
Михаил, извините, но онлайновое распознавание аудио совсем не интересно, поскольку неконфиденциально, поэтому для человеческих голосов не подходит.
Это все равно, что отправить в Интернет свои отпечатки пальцев.
Так что расказывайте лучше о Whisper, Vosk и т.п.
@MrDewiar Месяц назад
Все верно. Это решение сделано на Vosk. Работает на моем собственном сервере. И ее можно отделить для работы в закрытом контуре интранета.
@padowan_________2501 Месяц назад ⁺¹
Вы может и молодец, но проще сказать где это все скачивать, а не предоставлять отдельный API с командной сторокой.
Тем более на реплике цена цена юза 0.0005$ за секунду + патчи+ обновки. А это садомазо. Да патч за ВЕНОМА 9$ Но какие это ощущения)))
@MrDewiar Месяц назад ⁺¹
Так Вы можете спокойно все скачать на Гитхабе github.com/alphacep/vosk-api - проблема в том, что большинство пользователей не смогут это запустить самостоятельно. Я запустил на своем собственном сервере ,сделал доступным для все. Этим и делюсь
@igorcoolman Месяц назад ⁺²
на подобии suno v4 есть что-нибудь?
@MrDewiar Месяц назад
Изучу вопрос, спасибо
@annihilation9670 Месяц назад ⁺²
Вот тот интелект ,что был показан в фильме Чаппи!Вот это есть интелект.А мы имеем дело с каким то набором алгоритмов.Которые себя ведут хаотично.Интелект это развитие.Достижение чего то.А не уничтожение всего в хаосе.Поведение и галлюцинирование этих всех преблуд явно показывает насколько это несамостоятельная вещь.Она не может существовать без коррекций действий человека.
@MrDewiar Месяц назад ⁺³
Пока так, да. Надеюсь, скоро мы увидим то, что Вы описываете 👍
@romanbolgar Месяц назад ⁺¹
Так и многие люди такие. Есть вообще овощи... И что их после этого людьми не называть?
@MrDewiar Месяц назад
@romanbolgar 😄
@airlow6784 Месяц назад ⁺¹
Такой уже есть,
@annihilation9670 Месяц назад
@@MrDewiar ты всетаки не понял о чем я написал.Именно потому что в начальной модели есть галлюцинации.Это полностью исключает возможность самостоятельного мышления.Потому что именно на начальном этапе должен быть стабильный процесс.А его нет.Когда гугл дипмайнд.Альфастар для старкрафта решил добывать гас через бункер.Потому что так быстрее.Это дало какой то эффект к самостоятельному развитию.Но это лишь в контексте игры основываясь на стратегии.Путем изучения огромного количество матчей.То есть грубо говоря база данных и алгоритмы путем поиска оптимального.
@romanbolgar Месяц назад ⁺¹
Надо будет попробовать. Как всегда нет времени. Правда не на чем пробовать. Мне надо транскрибировать текст в котором украинский и русский вперемешку. А здесь вообще только русский. Находил на других сайтах подобные решения И там даже был украинский ну такое то ограничение то работает а завтра не работает.... Лучше всего как-то попробовать оффлайн установить.
@MrDewiar Месяц назад ⁺²
Я буду расширять языковую поддержку
@LetterBoss-x8o Месяц назад ⁺²
У меня даже в телефоне голосовой набор есть.
@MrDewiar Месяц назад
Есть да, есть Спич АПИ браузерный, встроенный в Хром и другие браузеры.. но мне не нравится, не всегда надежно работает.
@Accountingforowners Месяц назад ⁺¹
Есть же прекрасная транскрибация у Яндекса за копейки. Зачем пилить то, что не будет лучше.
@MrDewiar Месяц назад ⁺²
Я добавлял Яндекс решение в конструктор ассистентов и... не прекрасная, у них нет преобразования файлов в нужный входящий формат.. и у них в несколько раз дороже, чем у того же wisper open ai. У Яндекса синтез голоса хороший, а транскрибация мне очень непонравилась, я пробовал.
@bikeonoor4006 Месяц назад ⁺¹
Щтука😂
@MrDewiar Месяц назад
))
@aliexpress-8495 Месяц назад ⁺¹
не работает вход на сайт((
@soboleffff2022 Месяц назад
У меня работает без проблем.
@MrDewiar Месяц назад
Периодически идут ддос атаки. Не знаю, кто так хочет все сломать, но пытаются)
@ticketboutique9812 Месяц назад ⁺¹
А хочется наоборот - синтезировать аудио по srt-файлу с тайм-кодами, чтобы сделать аудиодорожку для полезных иноязычных видео.
@MrDewiar Месяц назад
Нужно и то и то)) Доберемся и до этого)

Следующие

Автовоспроизведение

Как Визуализировать Идеи с Помощью ИИ: Интеллект-Карты