#14. Вероятностный взгляд на L1 и L2-регуляризаторы | Машинное обучение
HTML-код
- Опубликовано: 6 фев 2025
- Практический курс по ML на Stepik: stepik.org/cou...
Постановка задачи машинного обучения с вероятностной (байесовской) точки зрения. Вероятностное понимание работы L1 и L2-регуляризаторов.
Инфо-сайт: proproprogs.ru/ml
Телеграм-канал: t.me/machine_l...
Спасибо! Очень хорошо обьясняете! Тот редкий случай, когда на ютубе находишь что-то действительно полезное!
Да, да...помогает лучше понять. Угу. Вспоминается анекдот, который заканчивается фразой: 'папа, а с кем это ты разговаривал?'
Еще один вопрос, если регуляризация НЕ помогла ( такое может быть? Я либо прослушал либо вы не говорили об этом) в вероятностном смысле это означает ложность предположения об априорном распределении w? При этом вы в вероятностной модели показываете, что в качестве априорного можно взять произвольное многомерное, это не ведет к появлению кучи других регуляризаторов? Полагаю, что нет, но не могу осознать этот момент
Есть два основных подхода к борьбе с переобучением: регуляризаторы и сокращение признакового пространства, отбрасывая почти линейно зависимые признаки (через собственные числа и собственные векторы признакового пространства). Если все это не помогает, то меняйте модель.
8:30 не очень понял чем большая буква P отличается от маленькой?
P - вероятность; p - плотность распределения вероятностей
@@selfedu_rus , можете пожалуйста подсказать, после 5 часов дум, правильно ли я подытожил все : если переменные x зависимы друг от друга, то совместное распределение p(x, y | ω) будет отражать эту зависимость. В случае, когда переменные независимы, интегралы упрощаются, и выражение для апостериорного распределения может быть более управляемым. В этом случае, мы действительно получаем p(y | x, ω). Правильно ли я понял, что модель, в которой все колонки x независимы, это редкость, и то, что мы получим интеграл от минус бесконечности до плюс бесконечности ∫ R(θ, θ_шапка)P(θ | y1, y2, ..., yn)dθ -> min, в этом случае мы должны именно P(θ | y1, y2, ..., yn) стремиться к максимуму? Следовательно, в нашей реализации мы должны будем стремиться к максимуму P(y | x, ω). Но насколько я понял, это в случае независимых колонок. В случае зависимости колонок у нас уже будет интеграл от минус бесконечности до плюс бесконечности ∫ R(θ, θ_шапка)P(θ, y1, y2, ..., yn)dθ -> min. Следовательно, в нашем случае мы должны будем стремиться к максимуму P(x, y | ω)?
@@selfedu_rus ,и еще один вопрос, когда компоненты векторов y1 и y2 являются зависимыми. Эта зависимость не позволяет представить совместное распределение в образах произведений условного распределения и маргинального распределения, как это происходит в случае независимых случайных величин. P(θ,y1,y2)=P(θ∣y1,y2)⋅P(y1,y2), поэтому в нашем интеграле мы максимизируем именно эту вероятность, но я не понимаю, с связано то, что при зависимости компонент, мы не можем сделать такое разделение?