Не понятно, почему на 25 слайде нормированные данные повёрнуты (3-й график) А по поводу dropOut - про кухню и программистов не очень понятно, мне больше понравилось объяснение из книги "Грокаем глубокое обучение" там про вилку и форму для вилки было. Приведу вольную интерпретация как я понял: Когда мы выбрасываем какие-то нейроны мы уменьшаем нашу сеть, такая сеть начинает предсказывать менее точно, зато она менее склонна к переобучению. Так как выключаются каждый раз разные нейроны, всю сеть можно интерпретировать как набор "уменьшенных" сетей, а вся сеть - что-то вроде комбинации предсказаний этих сетей и это предсказание будет гораздо более точным. Мне тут понятнее воспринимать результат работы такой сети как результат центральной предельной теоремы - среднее предсказаний маленьких сеток будет близок к истинному предсказанию.
Смотрел Ваш обучающий курс по ML на teach-in, там Вы говорите, что есть математическая статья 2019 года, в которой объясняется, почему работает батч нормализация. Можете дать ссылку на нее, пожалуйста?
В ряде языков программирования оператор «:=» введён для того, чтобы отличать присвоение от сравнения. Иногда его используют и математики, чтобы подчеркнуть факт изменения значения ранее введённой величины. В данном случае он уместен, так как это не уравнения, а именно присвоение параметрам среднего и дисперсии новых значений, которые зависят в том числе и от их текущих значений, указанных в правой части.
Трюки с отражением и изменением яркости/контрастности исходных данных выглядят как подмешивание искусственных данных к реальным и вмешательство человеческого труда (причём не самого интеллектуального) в процесс машинного обучения, что внушает некоторые сомнения в перспективности данного подхода. Ведь, как верно подмечено на 27:00, любому человеку и даже животному и так понятно, что зеркальный котик - это тот же котик. Не пора ли учёным придумать такие пространства, в которых любые слегка повёрнутые и вытянутые по параметрам изображения будут изначально эквивалентны исходным, чтобы не тратить время на упражнения с аугментацией?
8:40. Вывод неверный. Второй слой оперся на стену, понял, что шпаклевка плохая, сказал мастеру переделать, мастер (первый слой) переделал под нужды второго слоя. Второй слой должен быть доволен. Требования учтены, все счастливы.
Первый лектор, которого не нужно ставить на х1,25 или х1.5, не э-кает, не мэ-кает. Находка!
Кстати, да, быстро говорит
Да, лектор топ
Отличный лектор. Отличная лекция. Спасибо.
Отличный преподаватель, отличная лекция, большое спасибо!
Прямо очень хорошо, спасибо!
Первый лектор на Физтехе (в Deep Learning School), который ОБЪЯСНЯЕТ данные. Остальные тупо читают по бумажке бу- бу- бу.
Регуляризация 18:10
Не понятно, почему на 25 слайде нормированные данные повёрнуты (3-й график)
А по поводу dropOut - про кухню и программистов не очень понятно, мне больше понравилось объяснение из книги "Грокаем глубокое обучение" там про вилку и форму для вилки было. Приведу вольную интерпретация как я понял: Когда мы выбрасываем какие-то нейроны мы уменьшаем нашу сеть, такая сеть начинает предсказывать менее точно, зато она менее склонна к переобучению. Так как выключаются каждый раз разные нейроны, всю сеть можно интерпретировать как набор "уменьшенных" сетей, а вся сеть - что-то вроде комбинации предсказаний этих сетей и это предсказание будет гораздо более точным. Мне тут понятнее воспринимать результат работы такой сети как результат центральной предельной теоремы - среднее предсказаний маленьких сеток будет близок к истинному предсказанию.
Попробуйте мысленно подвинуть каждую точку второго графика ближе к нулю. Оно само повернется)
Смотрел Ваш обучающий курс по ML на teach-in, там Вы говорите, что есть математическая статья 2019 года, в которой объясняется, почему работает батч нормализация. Можете дать ссылку на нее, пожалуйста?
18:19. Для Elastic Net, возможно, не хватает (1 - b) для слагаемого L1
На 12:29 ошибка. Если мы говорим про экспоненциальное сглаживание, то справа должны быть значения с предыдущего шага.
что за писей? 5:11
PCA
Анализ главных компонентов (principal component analysis)
(Batch Normalization на 11:30) Есть ли какая-нибудь разница между операторами = и := или это просто выпендрёж?
В ряде языков программирования оператор «:=» введён для того, чтобы отличать присвоение от сравнения. Иногда его используют и математики, чтобы подчеркнуть факт изменения значения ранее введённой величины. В данном случае он уместен, так как это не уравнения, а именно присвоение параметрам среднего и дисперсии новых значений, которые зависят в том числе и от их текущих значений, указанных в правой части.
ещё можно рисовать левую стрелку:
x
Трюки с отражением и изменением яркости/контрастности исходных данных выглядят как подмешивание искусственных данных к реальным и вмешательство человеческого труда (причём не самого интеллектуального) в процесс машинного обучения, что внушает некоторые сомнения в перспективности данного подхода. Ведь, как верно подмечено на 27:00, любому человеку и даже животному и так понятно, что зеркальный котик - это тот же котик. Не пора ли учёным придумать такие пространства, в которых любые слегка повёрнутые и вытянутые по параметрам изображения будут изначально эквивалентны исходным, чтобы не тратить время на упражнения с аугментацией?
И как вы это себе представляете?
да такая уже есть фигня. Инвариантное представление картинок. Как-то так. Я не помню точно названия
8:40. Вывод неверный. Второй слой оперся на стену, понял, что шпаклевка плохая, сказал мастеру переделать, мастер (первый слой) переделал под нужды второго слоя. Второй слой должен быть доволен. Требования учтены, все счастливы.
лекция классная, но жопу перед камерой чесать не стоит, наверное