SOTA методы в распознавании речи и библиотека NVIDIA NeMo (Денис Тимонин)

Поделиться
HTML-код
  • Опубликовано: 18 авг 2021
  • Летняя школа по финтеху факультета компьютерных наук НИУ ВШЭ.
    Докладчик: Денис Тимонин, AI Soultions Architect, NVIDIA.
    20 июля 2021
    Летняя школа по финтеху: cs.hse.ru/fintechschool/
    ФКН: cs.hse.ru​​
    Подписывайтесь на нас в социальных сетях: cshse ​​, / ​​ , / cs_hse​

Комментарии • 2

  • @dadagj728
    @dadagj728 2 месяца назад +1

    00:00 общее введение
    2:57 что такое ASR
    4:00 список материалов про SOTA ASR
    6:40 что такое NeMo
    8:16 зачем нам NeMo
    9:04 из чего он состоит
    13:30 какие возможности предоставляет
    16:05 ASR pipeline
    18:13 обучение в NeMo - верхнеуровневый код
    19:30 mix precision, CUDA ядра
    22:52 конфиг модели
    24:09 типизация в NeMo
    25:11 верхнеуровнево про процесс обучения
    27:35 аугментация в препроцессинге
    31:50 библиотека Dali
    32:52 список доступных ASR моделей для распознавания речи
    34:55 список моделей для классификации и детекции речи
    36:20 список моделей для классификации человека по речи
    Архитектура:
    распознавание:
    38:00 Jasper
    40:50 QuartzNet
    43:35 Citrinet
    44:50 Conformer
    45:40 WER
    47:00 сравнение архитектур по метрике
    классификация:
    48:25 MatchBoxNet и другие задачи
    49:55 дополнительные инструменты препроцессинга в NeMo
    52:27 обзор репозитория NeMo
    54:10 Notebook
    55:17 CTC Loss
    57:10 пример обучения QuartzNet15x5 - начало
    59:10 про спектрограммы
    1:00:51 MEL спектрограммы - приведение данных к формату, в котором человек слышит
    1:05:23 обучение с 0
    1:07:15 конфиг модели
    1:09:07 логи в процессе обучения
    1:10:59 пример аугментации - обрыва слов, отбрасывания частот и тд
    1:11:22 перенос обучения
    Onix
    1:11:25 ответы на вопросы

  • @PRiKoL1ST1
    @PRiKoL1ST1 2 года назад +4

    Презентация есть?