Артем Хорошев - Ускоряем синтез: от TensorRT до CUDA C++
HTML-код
- Опубликовано: 15 май 2024
- Подробнее о конференции C++ Russia: jrg.su/W8skjE
- -
Выступление посвящено оптимизации одного из компонентов сервиса SberDevices, который превращает текст в человеческую речь. Артём подробно рассмотрел способы оптимизации ML inference, начиная от применения высокоуровневой библиотеки TensorRT, заканчивая самостоятельной оптимизацией на CUDA C++. Доклад будет интересен как тем, кто сталкивается с машинным обучением в продакшене, так и тем, кто хочет получить максимум от используемого железа.
Скачать презентацию с сайта C++ Russia - jrg.su/SRm3MZ - Наука