Из аудио в текст: анализ, эмоции и автоматическое исправление ошибок в полученном тексте

Поделиться
HTML-код
  • Опубликовано: 15 дек 2024

Комментарии • 29

  • @antonmanukyan3307
    @antonmanukyan3307 2 дня назад +5

    Это всё очень полезно, очень ждем текст в аудио, на русском. Eleven labs, конечно топ, но хочется локально, с эмоциональным окрасом и правильной фонетикой :)

    • @MrDewiar
      @MrDewiar  2 дня назад +3

      Да, буду пробовать запускать такое решение

  • @valerimihailov4819
    @valerimihailov4819 2 дня назад +3

    Благодарим!

    • @MrDewiar
      @MrDewiar  2 дня назад

      Валера, спасибо 🤝

  • @Информационно-развлекатель-н4к

    Это очень умно и круто. Это то за что действительно можно заплатить

    • @MrDewiar
      @MrDewiar  2 дня назад

      Будем развивать! Спасибо за хороший отзыв!

  • @nixaristix1819
    @nixaristix1819 День назад +1

    Очень круто! Скорей бы это все работало на большие объемы данных.

    • @MrDewiar
      @MrDewiar  День назад

      Спасибо. Это от железа зависит. Если появятся возможности приобрести более мощное оборудование, все заработает лучше

  • @ИванИванов-п2ю6г
    @ИванИванов-п2ю6г День назад +1

    Хорошее дело делаете, спасибо! Попробовал, результат такой. Опция "45М" выдала ошибку сервера на файлах мр3 длительностью 30 сек и 13 мин - не сработал ИИ, но грубое распознавание прошло где-то пятой части файла, потом интерес к моему файлу пропал. Опция "1.8G" грубое распознавание провела, а ИИ обработал только короткий файл. На большем - ошибка сервера.

    • @MrDewiar
      @MrDewiar  День назад

      Здравствуйте. Быстрее всего ошибаи из-за очередей. Сервер один, а наплыв пользователей значительный. Вис сервер несаолько раз. Там транскрибация на процессоре, и параллельно llm на видеокарте.. и сервер работает, ставит в очередь пользоватплей, но потом виснет при одновременной работе для нескольких пользователей. Нужно более мощное железо, но у меня пока нет ресурсов к его приобретению

  • @Yoshaorlow
    @Yoshaorlow День назад +1

    Спасибо. Недавно расшифровывал интервью при помощи Whisper , но есть засада: нет диаризации. То есть есть, но через правое ухо. Попробую на этом

    • @MrDewiar
      @MrDewiar  День назад

      В этом ее тоже нет, диаризацию я докручиваю отдельной нейросетью на основе лингвистического анализы извлеченных сырых данных. Использую локальную нейросеть Gemma для этого. Будем смотреть, справится ли с задачей.

    • @Yoshaorlow
      @Yoshaorlow 15 часов назад

      @MrDewiar я попробовал обрабатывать ChatGPT, но столкнулся с тем, что он фантазирует сильно, хотя и правильно разбивает на диалоги, а иногда даже подписывает говорящих сам. Клод делает точнее, но всё равно быстро кончается лимиты обработки. Gemeni не смог заставить выдать диалог. Он хотел отвечать на вопросы по интервью, пересказывать, делать выводы... Но сам транскрипт не выдавал

  • @НаБерлин-у2ч
    @НаБерлин-у2ч День назад +1

    Ребята вы лучшие! Сделайте возможность для доната!

    • @MrDewiar
      @MrDewiar  День назад

      Благодарю, подумаем, спасибо 🤝

  • @msistem2025
    @msistem2025 День назад +1

    08:36 Не понял как встраивать в сайты и телеграм?

    • @MrDewiar
      @MrDewiar  День назад

      Пожалуйста, посмотрите в моих видео есть об этом.

  • @antonmanukyan3307
    @antonmanukyan3307 2 дня назад +2

    Благодарю за ответ, как понимаю вы портативки не делаете и народу не раздаёте, а делаете все у себя.

    • @MrDewiar
      @MrDewiar  День назад +1

      Это невозможно раздать, требуется мощная видеокарта (у меня на 24Gb). Я разворачиваю на своем сервере, и даю на бесплатное использование. Пока так.

    • @antonmanukyan3307
      @antonmanukyan3307 День назад

      @MrDewiar ясно, у меня rtx 2060 на 12 gb, юзаю и flux и gguf дистиллированный xxs от llama 3.1 на 27b.

  • @Galiruhali-ull
    @Galiruhali-ull День назад +1

    На gemini 2.0 либо цены не верные указаны, либо что-то не так списывает, снимает за запрос раз в 10 больше чем на gemini 1.5

    • @MrDewiar
      @MrDewiar  День назад

      Спасибо за информацию, проверю. Сегодня сравнивал его ответы с версией Gemini 1.0 PRO EXP, и она лучше, чем Gemini 2

  • @Aver812
    @Aver812 2 дня назад +2

    Это бесплатно?

    • @MrDewiar
      @MrDewiar  2 дня назад +2

      Да, полностью бесплатно

  • @msistem2025
    @msistem2025 День назад +1

    08:36 Не понял как встраивать в сайты и телеграм?

    • @MrDewiar
      @MrDewiar  День назад

      Здравствуйте. Это очерь просто. Посмотрите в моих видео.. конструктор ассистентов, там есть ролики об этом