Лекция. Архитектуры CNN
HTML-код
- Опубликовано: 1 авг 2024
- Занятие ведёт Татьяна Гайнцева.
Ссылка на презентацию: docs.google.com/presentation/...
---
0:00 - ImageNet Timeline
2:46 - AlexNet
11:29 - Затухание градиентов
19:20 - Skip Connection
28:45 - ResNet
32:57 - DenseNet
41:58 - Model Zoo
44:46 - Inception (GoogleNet)
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/ru/
Официальная группа ВК: dlschool_mipt
Github-репозиторий: github.com/DLSchool/dlschool
Поддержать канал можно на Boosty: boosty.to/deeplearningschool
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...
@Tatiana Gaintseva, вы восхитительная! Лучше, чем у вас обьяснение cnn я не нашел)
Здоровья вам и вкусных печенек!
🤯 как же все это круто
Спасибо за лекцию, вы отличный лектор!
О, и ссылка на презентацию! Благодарю
просто прекрасно!!
спасибо!
Татьяна, моё почтение👍
@Tatiana Gaintseva, спасибо за хорошее объяснение. Очень интересно. Вот вы говорили, что можете почитать на "медиуме?" не очень понятно, не могли бы вы написать где. Большое спасибо)
Вопрос по skip connection. Интуитивно кажется что такой трюк должен свести на нет всю работу скрытых слоев при условии что значения весов небольшие. Для обучения нам нужна нелинейность которую мы достигаем активацией. Активация зажимает значения в небольшой диапазон. Используют ли активацию на скрытых слоях вместе со skip connection? Почему skip connection не сводит на нет работу скрытых слоев?
Если сеть долго обучать, то у ядер одного слоя нет тенденции к тому, чтобы становиться похожими?
Точно ли правильная архитектура AlexNet? Даже простой расчет последней свертки 13x13x256 никак не равен 4096
А точно ядра 1*1? Вроде чаще схема встречается с ядром 3*3 и паддингом 1.
А что же про самую эффективную нейросеть (EfficientNet_v2) не рассказали???
У меня есть предположение, что skip connection применяют прям в очень больших сетях, условно больше 18 слоев, как в ResNet.
Применение техники Skip connection - это обычная практика при работе с задачами DNN ? (наряду с baseline техниками - ReLU, Adam, нормализацией)
Когда я говорила о скип коннекшенах, я как раз сказала, что они нужны для того чтобы обучаться глубокие сети :) так что да, они имеют смысл в глубоких сетях. В маленьких их не применяют
Вообще-то веса это дубль-вэ (дабл-ю), а не омега (от слова вес - weight).
"скип коннекшен называется скип коннекшен, потому что он скипает" - ох уж эти жертвы гугл-переводчиков. Когда вы научитесь учить английский и не забывать русский?
Д - значит душнила.
Ппц, столько бреда в одной лекции я еще не слышал...(
Это точно програмирование, что имеет прямую жесткую связь с математико?
...
Или конкурс лингвистической эквилибристики? На 19:35 у вас там "мат.пушка" на экране. Бог с ним как вы в скобках единицу присвоили. Но как вы за скобки общий множитель выносите - это ТРЭШ.
...
Формулы сокращенного умножения? Не, видать не слышали?
Более того если свернуть вашу "пушку" по законам математики, то х1 в расчетах не участвует и либо L/W равно нулю либо х3/х2 равно нулю, а L/W через Х-ы не выражается и от них не зависит.
....
Дайте Вашу формулу любому школьнику, попрасите ее сократить и сами увидете, что выйдет.
здравствуйте. Поясните подробнее, пожалуйста, что вам кажется неверным на слайде. Про "свернуть" формулу - смысл в том, что я наоборот разворачивала формулу производной в производную сложной функции, чтобы показать, как она считается. Или я неверно понимаю вашу претензию?
@@user-xl1nd7ie4j свернуть "пушку" по законам математики нельзя. То, что вы считаете "дробями" - это градиенты. Не дроби. Если вы аппелируете к математике, то сначала подтяните сами знания о производных и градиентах сложной функции.
@@tatianagaintseva8701 градиен, вектор, да хоть атамайзер... если это нечто меняющиеся в зависимости от чего-то, то общий вид записи F(x). A F(x)/F(x)=1 ..... хоть в африке, хоть на луне.
@P4ElOVEk не разбираюсь? С клавы мобилы регистры и значки ваших "векторов" корректно указать сложно. Но о чем я кто в теме понял. Вы там по ходу с новыми законами матеиатики случайно новую символьную таблицу для древнейшей из наук не изобрели?
....
Так надо тогда уж и "легенду" этих символов выкладывать, что вы там имели в виду.
...
А уровень вашей мат. подготовке четко определяется, когда при отображение суммы, вы одно из слогаемых (которое является произведение) в скобки берете.
...
А с "присвоением ЕДИНИЦЫ" -то это вообще за гранью.
Полезно и доступно. Спасибо, красавица.