023 Классификация изображений. Часть 16. EfficientNet v2 (2021)
HTML-код
- Опубликовано: 31 май 2024
- Ранее рассматривали первую версию EfficientNet. А теперь пришла очередь второй версии. Если сравнивать эти две версии, то конечно вторая версия лучше. Хотя вторая версия построена на основе первой, но с некоторыми изменениями.
Также в научной статье был упомянут прогрессивный метод обучения модели. В этом видео мы затронем принципы такого обучения, а заодно познакомимся с двумя аугментациями Rand Augment и MixUp.
В завершении обучим большую модель EfficientNet версии 2 на изображениях 600 на 600 пикселей и применим, рекомендованную авторами, аугментацию RandAugment. И посмотрим, сможем ли мы побить имеющийся рекорд по точности, который мы видели глазами.
Таймкоды:
00:00 | Введение
02:10 | Кратко вспоминаем EfficientNet v1
03:11 | Основа архитектуры EfficientNet v2
06:48 | Идеи прогрессивного обучения
10:32 | Об аугментации RandAugment
13:25 | Об аугментации MixUp
16:52 | Промежуточные результаты и выбор модели
17:43 | Обучаем модель efficientnet_v2_l (600 пикселей, RandAugment) и тестируем
20:34 | Анализируем предсказания
23:57 | Заключение - Наука
спасибо, отличный контент, Классификация изображений
И вам спасибо!
Спасибо за видео, видать, скоро 1000 подписчиков!
Конечно приятно достичь 1000 подписчиков :). Но это второстепенно.
эти две Классификация изображений версии EfficientNet побить Классификация изображений имеющийся на основе первой Классификация изображений
снова кодировка :)))
Пора на KAN переходить. Писали, что они лучше старых нейронок (заменяют веса функциями). Используются формулы советских математиков Колмогорова и Арнольда.
Для меня пока рано заниматься этой темой. Здесь сначала должно научное сообщество включиться и продемонстрировать что это стоящая тема. Но на 21.05.2024 нет статей, которые демонстрируют пригодность этого подхода. Да, на формулах и на синтетических тестах можно показать улучшение, но я подожду пока прояснится ситуация с задачами в компьютерном зрении.
Давай будем откровенны. Статья ещё только появилась. У неё пока 8 цитирований. Причём одно из цитирований связано с компьютерным зрением (Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors), только вот там написано, что авторы хотели попробовать KAN, но из-за того что прилагаемая библиотека глючная, то они будут использовать MLP. Т.е. это антиреклама статьи про KAN.
Так что учёное сообщество вполне может поковыряться в этой теме, а мы "практики" подождём, пока гиганты типа Гугла, майкрософта, может Яндекса и им подобные на своих вычислительных ресурсах обучат модель на новой архитектуре и поделятся архитектурой и предобученной моделью.