#14. Вероятностный взгляд на L1 и L2-регуляризаторы | Машинное обучение

Поделиться
HTML-код
  • Опубликовано: 6 фев 2025
  • Практический курс по ML на Stepik: stepik.org/cou...
    Постановка задачи машинного обучения с вероятностной (байесовской) точки зрения. Вероятностное понимание работы L1 и L2-регуляризаторов.
    Инфо-сайт: proproprogs.ru/ml
    Телеграм-канал: t.me/machine_l...

Комментарии • 8

  • @alexandercherkashin3512
    @alexandercherkashin3512 Год назад +4

    Спасибо! Очень хорошо обьясняете! Тот редкий случай, когда на ютубе находишь что-то действительно полезное!

  • @paulkarkarin466
    @paulkarkarin466 Год назад +9

    Да, да...помогает лучше понять. Угу. Вспоминается анекдот, который заканчивается фразой: 'папа, а с кем это ты разговаривал?'

  • @girrra1233
    @girrra1233 Год назад +1

    Еще один вопрос, если регуляризация НЕ помогла ( такое может быть? Я либо прослушал либо вы не говорили об этом) в вероятностном смысле это означает ложность предположения об априорном распределении w? При этом вы в вероятностной модели показываете, что в качестве априорного можно взять произвольное многомерное, это не ведет к появлению кучи других регуляризаторов? Полагаю, что нет, но не могу осознать этот момент

    • @selfedu_rus
      @selfedu_rus  Год назад

      Есть два основных подхода к борьбе с переобучением: регуляризаторы и сокращение признакового пространства, отбрасывая почти линейно зависимые признаки (через собственные числа и собственные векторы признакового пространства). Если все это не помогает, то меняйте модель.

  • @girrra1233
    @girrra1233 Год назад +1

    8:30 не очень понял чем большая буква P отличается от маленькой?

    • @selfedu_rus
      @selfedu_rus  Год назад

      P - вероятность; p - плотность распределения вероятностей

    • @g.s1849
      @g.s1849 Год назад

      @@selfedu_rus , можете пожалуйста подсказать, после 5 часов дум, правильно ли я подытожил все : если переменные x зависимы друг от друга, то совместное распределение p(x, y | ω) будет отражать эту зависимость. В случае, когда переменные независимы, интегралы упрощаются, и выражение для апостериорного распределения может быть более управляемым. В этом случае, мы действительно получаем p(y | x, ω). Правильно ли я понял, что модель, в которой все колонки x независимы, это редкость, и то, что мы получим интеграл от минус бесконечности до плюс бесконечности ∫ R(θ, θ_шапка)P(θ | y1, y2, ..., yn)dθ -> min, в этом случае мы должны именно P(θ | y1, y2, ..., yn) стремиться к максимуму? Следовательно, в нашей реализации мы должны будем стремиться к максимуму P(y | x, ω). Но насколько я понял, это в случае независимых колонок. В случае зависимости колонок у нас уже будет интеграл от минус бесконечности до плюс бесконечности ∫ R(θ, θ_шапка)P(θ, y1, y2, ..., yn)dθ -> min. Следовательно, в нашем случае мы должны будем стремиться к максимуму P(x, y | ω)?

    • @g.s1849
      @g.s1849 Год назад

      @@selfedu_rus ,и еще один вопрос, когда компоненты векторов y1 и y2 являются зависимыми. Эта зависимость не позволяет представить совместное распределение в образах произведений условного распределения и маргинального распределения, как это происходит в случае независимых случайных величин. P(θ,y1,y2)=P(θ∣y1,y2)⋅P(y1,y2), поэтому в нашем интеграле мы максимизируем именно эту вероятность, но я не понимаю, с связано то, что при зависимости компонент, мы не можем сделать такое разделение?