#14. Вероятностный взгляд на L1 и L2-регуляризаторы | Машинное обучение

selfedu

Просмотров 6 тыс.

140

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 6 фев 2025
Практический курс по ML на Stepik: stepik.org/cou...
Постановка задачи машинного обучения с вероятностной (байесовской) точки зрения. Вероятностное понимание работы L1 и L2-регуляризаторов.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_l...

Комментарии • 8

@alexandercherkashin3512 Год назад ⁺⁴
Спасибо! Очень хорошо обьясняете! Тот редкий случай, когда на ютубе находишь что-то действительно полезное!
@paulkarkarin466 Год назад ⁺⁹
Да, да...помогает лучше понять. Угу. Вспоминается анекдот, который заканчивается фразой: 'папа, а с кем это ты разговаривал?'
@girrra1233 Год назад ⁺¹
Еще один вопрос, если регуляризация НЕ помогла ( такое может быть? Я либо прослушал либо вы не говорили об этом) в вероятностном смысле это означает ложность предположения об априорном распределении w? При этом вы в вероятностной модели показываете, что в качестве априорного можно взять произвольное многомерное, это не ведет к появлению кучи других регуляризаторов? Полагаю, что нет, но не могу осознать этот момент
@selfedu_rus Год назад
Есть два основных подхода к борьбе с переобучением: регуляризаторы и сокращение признакового пространства, отбрасывая почти линейно зависимые признаки (через собственные числа и собственные векторы признакового пространства). Если все это не помогает, то меняйте модель.
@girrra1233 Год назад ⁺¹
8:30 не очень понял чем большая буква P отличается от маленькой?
@selfedu_rus Год назад
P - вероятность; p - плотность распределения вероятностей
@g.s1849 Год назад
@@selfedu_rus , можете пожалуйста подсказать, после 5 часов дум, правильно ли я подытожил все : если переменные x зависимы друг от друга, то совместное распределение p(x, y | ω) будет отражать эту зависимость. В случае, когда переменные независимы, интегралы упрощаются, и выражение для апостериорного распределения может быть более управляемым. В этом случае, мы действительно получаем p(y | x, ω). Правильно ли я понял, что модель, в которой все колонки x независимы, это редкость, и то, что мы получим интеграл от минус бесконечности до плюс бесконечности ∫ R(θ, θ_шапка)P(θ | y1, y2, ..., yn)dθ -> min, в этом случае мы должны именно P(θ | y1, y2, ..., yn) стремиться к максимуму? Следовательно, в нашей реализации мы должны будем стремиться к максимуму P(y | x, ω). Но насколько я понял, это в случае независимых колонок. В случае зависимости колонок у нас уже будет интеграл от минус бесконечности до плюс бесконечности ∫ R(θ, θ_шапка)P(θ, y1, y2, ..., yn)dθ -> min. Следовательно, в нашем случае мы должны будем стремиться к максимуму P(x, y | ω)?
@g.s1849 Год назад
@@selfedu_rus ,и еще один вопрос, когда компоненты векторов y1 и y2 являются зависимыми. Эта зависимость не позволяет представить совместное распределение в образах произведений условного распределения и маргинального распределения, как это происходит в случае независимых случайных величин. P(θ,y1,y2)=P(θ∣y1,y2)⋅P(y1,y2), поэтому в нашем интеграле мы максимизируем именно эту вероятность, но я не понимаю, с связано то, что при зависимости компонент, мы не можем сделать такое разделение?

Следующие

Автовоспроизведение

#15. Формула Байеса при решении конкретных задач | Машинное обучение