Бесплатная онлайн-программа для локальной транскрибации аудио в текст с файла или микрофона

Поделиться
HTML-код
  • Опубликовано: 7 фев 2025
  • Запустил простое решение для транскрибации аудио.
    Протестировать можно здесь: dewiar.com/spe...
    Все новости, идеи и предложения в Телеграм: t.me/dewiarx
    Если вы считаете, что то, чем я занимаюсь, полезно, и хотите меня поддержать, буду очень благодарен! Вот ссылка на донат:
    www.paypal.com...
    Спасибо за вашу поддержку! 🙏

Комментарии • 59

  • @НаБерлин-у2ч
    @НаБерлин-у2ч Месяц назад +2

    Вы как всегда на высоте! Каждый ролик открытие!

    • @MrDewiar
      @MrDewiar  Месяц назад

      Спасибо за отзыв. Буду стараться и дальше

  • @bondar_alex
    @bondar_alex Месяц назад +2

    Михаил, спасибо Вам большое за отличный, практичный материал!

    • @MrDewiar
      @MrDewiar  Месяц назад

      Спасибо за отзыв 🤝

  • @Почемучка-л8б
    @Почемучка-л8б Месяц назад +3

    Михаил, громкость прекрасная! Содержание отличное! Спасибо!

    • @MrDewiar
      @MrDewiar  Месяц назад

      Спасибо =)

  • @webcob
    @webcob Месяц назад +1

    Михаил, спасибо за хороший материал. 🙏👍

    • @MrDewiar
      @MrDewiar  Месяц назад

      Спасибо Вам

  • @dewiar_org
    @dewiar_org Месяц назад +2

    Супер!

  • @АлексейОмельянюк-ю9т
    @АлексейОмельянюк-ю9т Месяц назад +1

    Миша ты мой герой!!! Я ждал этого!!!

    • @MrDewiar
      @MrDewiar  Месяц назад

      Леша, клево видеть твой комментарий! Супер!

  • @marketplace_LiveGood
    @marketplace_LiveGood Месяц назад +1

    Миша! Ты как всегда крут! Супер.🎉🎉🎉

    • @MrDewiar
      @MrDewiar  Месяц назад

      Спасибо =)

  • @Constantine..
    @Constantine.. Месяц назад +1

    Спасибо за видео, Жаль что без технических подробностей, ценю ваши ролики именно за них.

    • @MrDewiar
      @MrDewiar  Месяц назад

      Спасибо. Не стал вдаваться, как-то поспешил. Использую VOSK сейчас, это открытое бесплатное решение. Пробую добавить еще WISPER, но пока не хочет работать(

  • @sve41794833
    @sve41794833 Месяц назад +1

    Спасибо!

    • @MrDewiar
      @MrDewiar  Месяц назад

      Вам спасибо за отзыв

  • @VoltMotoTech
    @VoltMotoTech Месяц назад +1

    Благодарю за труд, Михаил! Круто!
    Существует ли обратное решение из текста в голос?

    • @LetterBoss-x8o
      @LetterBoss-x8o Месяц назад

      Естественно! Бесплатно, в интернете!

    • @MrDewiar
      @MrDewiar  Месяц назад +1

      Я иду в эту сторону. Буду пробовать делать синтез голосов. Еще подхожу к этому вопросу

  • @Without_Martingale
    @Without_Martingale Месяц назад +1

    Интересно было бы изменить голос при помощи ИИ с сохранением интонации выдержки между словами как на исходном аудио (переозвучка аудио).

    • @MrDewiar
      @MrDewiar  Месяц назад

      Это буду делать на следующем шаге, когда начнем синтезировать голоса

  • @hottab.clubber
    @hottab.clubber Месяц назад +1

    Говорил про Whisper - реализация на Vosk
    Две большие разницы в точности и гибкости.

    • @MrDewiar
      @MrDewiar  Месяц назад

      Абсолютно верно. Виспер я использую не здесь, а в конструкторе ассистентов на платформе Девиар. А локальный Виспер у меня на сервере не хочет работать, не могу понять почему.

  • @СеливановВасилий
    @СеливановВасилий Месяц назад +1

    попробовал загрузить файл мр3 . пишет. не может обнаружить текст в аудио.(а он там есть-песенка короткая))

    • @MrDewiar
      @MrDewiar  25 дней назад

      Я несколько раз пересматривал код. Некоторые файлы действительно не может распознать.

  • @Bkloped
    @Bkloped Месяц назад +1

    подскажите, а почему вы используете именно воск? я решал эту задачу и остановился на виспер.
    и ещё, какую модель вы бы посоветовали для распределения реплик между разными говорящими? ведь чтобы расшифровать например диалог нужно не просто транскрибировать, но определить кто сказал что.

    • @MrDewiar
      @MrDewiar  Месяц назад +2

      Я думаю добавить Виспер, но на моем линукс убунту он никак не хочет работать, не могу понять почему. По остальным замечаниям, посмотрите мое новое видео, я добавил к Vosk нейросеть Gemma, и она частично решает то, что Вы описали

    • @Bkloped
      @Bkloped Месяц назад +1

      @ спасибо, проснулся и сразу посмотрел. Я использовал для решения этой задачи pyannote. Если вам несложно, скажите, чем вариант с гемма лучше?

    • @MrDewiar
      @MrDewiar  Месяц назад +2

      @Bkloped да, Вы использовали специальный набор пакетов для диоризации, это хорошее решение. Я же пробую делать это через семантический анализ большой языковой модели.. для этого можно использовать любую нейросеть с хорошей поддержкой русского языка.. выбрал Gemma2 9b только поэтому.. Она хорошо справляется для своего размера.

    • @Bkloped
      @Bkloped Месяц назад

      @@MrDewiar спасибо

  • @ВикторЛ-щ2т
    @ВикторЛ-щ2т Месяц назад +1

    Михаил, извините, но онлайновое распознавание аудио совсем не интересно, поскольку неконфиденциально, поэтому для человеческих голосов не подходит.
    Это все равно, что отправить в Интернет свои отпечатки пальцев.
    Так что расказывайте лучше о Whisper, Vosk и т.п.

    • @MrDewiar
      @MrDewiar  Месяц назад

      Все верно. Это решение сделано на Vosk. Работает на моем собственном сервере. И ее можно отделить для работы в закрытом контуре интранета.

  • @padowan_________2501
    @padowan_________2501 Месяц назад +1

    Вы может и молодец, но проще сказать где это все скачивать, а не предоставлять отдельный API с командной сторокой.
    Тем более на реплике цена цена юза 0.0005$ за секунду + патчи+ обновки. А это садомазо. Да патч за ВЕНОМА 9$ Но какие это ощущения)))

    • @MrDewiar
      @MrDewiar  Месяц назад +1

      Так Вы можете спокойно все скачать на Гитхабе github.com/alphacep/vosk-api - проблема в том, что большинство пользователей не смогут это запустить самостоятельно. Я запустил на своем собственном сервере ,сделал доступным для все. Этим и делюсь

  • @igorcoolman
    @igorcoolman Месяц назад +2

    на подобии suno v4 есть что-нибудь?

    • @MrDewiar
      @MrDewiar  Месяц назад

      Изучу вопрос, спасибо

  • @annihilation9670
    @annihilation9670 Месяц назад +2

    Вот тот интелект ,что был показан в фильме Чаппи!Вот это есть интелект.А мы имеем дело с каким то набором алгоритмов.Которые себя ведут хаотично.Интелект это развитие.Достижение чего то.А не уничтожение всего в хаосе.Поведение и галлюцинирование этих всех преблуд явно показывает насколько это несамостоятельная вещь.Она не может существовать без коррекций действий человека.

    • @MrDewiar
      @MrDewiar  Месяц назад +3

      Пока так, да. Надеюсь, скоро мы увидим то, что Вы описываете 👍

    • @romanbolgar
      @romanbolgar Месяц назад +1

      Так и многие люди такие. Есть вообще овощи... И что их после этого людьми не называть?

    • @MrDewiar
      @MrDewiar  Месяц назад

      @romanbolgar 😄

    • @airlow6784
      @airlow6784 Месяц назад +1

      Такой уже есть,

    • @annihilation9670
      @annihilation9670 Месяц назад

      @@MrDewiar ты всетаки не понял о чем я написал.Именно потому что в начальной модели есть галлюцинации.Это полностью исключает возможность самостоятельного мышления.Потому что именно на начальном этапе должен быть стабильный процесс.А его нет.Когда гугл дипмайнд.Альфастар для старкрафта решил добывать гас через бункер.Потому что так быстрее.Это дало какой то эффект к самостоятельному развитию.Но это лишь в контексте игры основываясь на стратегии.Путем изучения огромного количество матчей.То есть грубо говоря база данных и алгоритмы путем поиска оптимального.

  • @romanbolgar
    @romanbolgar Месяц назад +1

    Надо будет попробовать. Как всегда нет времени. Правда не на чем пробовать. Мне надо транскрибировать текст в котором украинский и русский вперемешку. А здесь вообще только русский. Находил на других сайтах подобные решения И там даже был украинский ну такое то ограничение то работает а завтра не работает.... Лучше всего как-то попробовать оффлайн установить.

    • @MrDewiar
      @MrDewiar  Месяц назад +2

      Я буду расширять языковую поддержку

  • @LetterBoss-x8o
    @LetterBoss-x8o Месяц назад +2

    У меня даже в телефоне голосовой набор есть.

    • @MrDewiar
      @MrDewiar  Месяц назад

      Есть да, есть Спич АПИ браузерный, встроенный в Хром и другие браузеры.. но мне не нравится, не всегда надежно работает.

  • @Accountingforowners
    @Accountingforowners Месяц назад +1

    Есть же прекрасная транскрибация у Яндекса за копейки. Зачем пилить то, что не будет лучше.

    • @MrDewiar
      @MrDewiar  Месяц назад +2

      Я добавлял Яндекс решение в конструктор ассистентов и... не прекрасная, у них нет преобразования файлов в нужный входящий формат.. и у них в несколько раз дороже, чем у того же wisper open ai. У Яндекса синтез голоса хороший, а транскрибация мне очень непонравилась, я пробовал.

  • @bikeonoor4006
    @bikeonoor4006 Месяц назад +1

    Щтука😂

  • @aliexpress-8495
    @aliexpress-8495 Месяц назад +1

    не работает вход на сайт((

    • @soboleffff2022
      @soboleffff2022 Месяц назад

      У меня работает без проблем.

    • @MrDewiar
      @MrDewiar  Месяц назад

      Периодически идут ддос атаки. Не знаю, кто так хочет все сломать, но пытаются)

  • @ticketboutique9812
    @ticketboutique9812 Месяц назад +1

    А хочется наоборот - синтезировать аудио по srt-файлу с тайм-кодами, чтобы сделать аудиодорожку для полезных иноязычных видео.

    • @MrDewiar
      @MrDewiar  Месяц назад

      Нужно и то и то)) Доберемся и до этого)