#12. L1-регуляризатор. Отличия между L1- и L2-регуляризаторами | Машинное обучение

selfedu

Просмотров 10 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 30 янв 2025

Комментарии • 26

@vasiliygorelov8037 2 года назад ⁺⁸
качественная информация. Спасибо! Мужик с кунг-фу пандой >> ШАД.
@geoman666 Год назад ⁺¹
мегасогласен
@ibragim_on Год назад ⁺³
Шикарно!
@ibragim_on Год назад ⁺¹
Браво🎉🎉🎉
@ИванЕвдокимов-л6ь Год назад ⁺²
Наконец-то понял про значение картинок с ромбом и окружности регуляризаторов в конце ролика)
Все понятно кроме 2ух формул на 3:45-3:59. Непонятно, что за квадратные скобки у выражения a(x)!=y и почему там знак '!=' вместо знака '='? Насколько я понимаю, формула L(w, x, y) записывается по аналогии с сигмоидальной функцией 1/[1+exp(-w^T*xi)], но тут зачем-то ещё добавляется yi под экспоненту, убирается знак минус и в числителе дроби добавляется двойка.
@trollface4783 Год назад
эти скобки - нотация Азерсона, было в лекция до этого ролика.
@g.s1849 Год назад ⁺³
Правильно ли я понимаю, что говоря о том , что у нас получается более сложная форма поверхности оптимизируемой функции в пространстве признаков, с новой точкой минимума , находящейся на пересечении кривых уровня этих двух составляющих, мы говорим это с геометрической точки зрения например в 3ехмерном пространстве если посмотреть с верху, но фактически они могут и не пересечься ведь L = L_orig + lyambda * R(omega) => ∇L_orig(omega*) = - lyambda * ∇R(omega*), но это не обязательно означает, что они пересекаются . С этим вроде все понятно, как и то почему некоторые коэффициенты обнуляются, но почему обнуляются именно те, которые линейно зависимые с чем это связано, почему вероятность того, что именно они обнуляться, а не другие, выше?
@g.s1849 Год назад ⁺²
Кажется, я понял. Дело в том, что при линейной зависимости наш ромб можно сказать вытягивается в длину или ширину, что ведет к тому, что вероятность "встречи" угла с меньшим углом выше. Следовательно, в принципе можно также объяснить, почему, например, в нашем случае, если мы изначально расширим пространство признаков таким образом:
\[ x_i = [w_i, h_i, 10w_i, 10h_i, 5h_i + 5w_i] \]
наш алгоритм с большей вероятностью выберет именно \(10w_i\) и \(10h_i\), а другие признаки в точке минимума обнулит.
@romanbykov5922 2 года назад ⁺²
Сергей, спасибо. Но поясните, пож-та: Это видео уже было в курсе (пару месяцев назад), потом оно вышло вчера. И вот выходит сегодня. Это какое-то обновление?
@selfedu_rus 2 года назад ⁺²
да, незначительная ошибка была, поправил, в целом, все одно и то же!
@pinggg98 Год назад ⁺¹
10:40 А есть ли вероятность того, что L2 обнулит признак? Выглядит так, будто если омега со шляпкой лежит на ординате, то тогда L2 тоже может сработать так, как это делает L1, разве нет?
@selfedu_rus Год назад
может, но с меньшей вероятностью
@pinggg98 Год назад
@@selfedu_rus благодарю за ответ!
@PhyzmatClass 9 месяцев назад
3:44 почему в функционале качества неравенство??
@PhyzmatClass 9 месяцев назад
Мне вот такое добавление регуляризаторов напоминает нахождение условного экстремума методом неопределенных множителей. Есть здесь связь?
@СергейЮров-б6е 2 года назад ⁺⁴
Сергей, вы как будто куда-то пропали. У вас все хорошо? Без обновлений вашего канала как-то не здорово…
@selfedu_rus 2 года назад ⁺⁸
Спасибо, все нормально. Немного отдыхал после курса на Stepik по ООП + текущая работа. Скоро будут новые видео ))
@MAPMEJIADbI4 2 года назад ⁺⁴
Почему на 13:29 первая величина больше второй, ведь вычитаемое 2*Δ*1 больше, чем 2*Δ*ε (при 0 < ε < 1)? Или может я чего-то не доглядел :/
@selfedu_rus 2 года назад ⁺¹
да, все верно у вас, я оговорился, наоборот, первое меньше второго, весь остальной вывод верен
@Name-ko3qb 2 года назад ⁺³
Так хочется познать ИИ, но мозги не дотягивают до математики, обидно
@ChelSammi9837 Год назад
у меня тоже сложно с математикой, но тут немного понимаю ее.
но начнете практику и все получится .
@dmitrybaltin6612 2 года назад ⁺¹
Спасибо большое за лекцию. Очень интересно и понятно.
Однако, есть вопрос. Скажите, почему вы добавляете слагаемое в производную функции потерь, но не добавляете его в функцию потерь?
Казалось бы должно быть что-то типа
L1 = 1.0
def loss(w, x, y):
M = np.dot(w, x) * y
return 2 / (1 + np.exp(M)) + np.abs(w).sum() * L1
@selfedu_rus 2 года назад
В функции она тоже должна быть, просто для расчета показателя качества я решил регуляризатор не учитывать. А в производной присутствует, чтобы градиентный алгоритм учитывал этот регуляризатор.
@dmitrybaltin6612 2 года назад ⁺¹
@@selfedu_rus Понятно. Спасибо за ответ. Кстати, пользуясь случаем. А не могли бы вы сделать видео, или даже несколько, о том, как устроена Stable Diffusion. Контента много разного в сети, но как правило, все очень по-дилетантски и косноязычно. Хотелось бы увидеть действительно качественный материал
@selfedu_rus 2 года назад
@@dmitrybaltin6612 да, интересная вещь, надо самому еще почитать ))
@СарматПересветов 10 месяцев назад ⁺¹
да, забавно, но у меня программа выдает что без L1-регуляризотара, алгоритм обучается нормально, причем Q получается даже меньше (лучше), нежели с использованием L1-регуляризотара. Вот как то так

Следующие

Автовоспроизведение

#13. Логистическая регрессия. Вероятностный взгляд на машинное обучение | Машинное обучение