DL2022: Нейронные сети (часть 1)

Поделиться
HTML-код
  • Опубликовано: 4 фев 2025

Комментарии • 14

  • @user-mhlrfvv
    @user-mhlrfvv Год назад +1

    На 5:57 нужно домножать не на exp(z), а на exp(z/2), тогда получается softmax(z/2, -z/2). Получается сигмоида выдаёт значения вероятностей ближе к 0.5, чем softmax.

  • @vladislavvorobyev5784
    @vladislavvorobyev5784 2 года назад +1

    Александр, здравствуйте
    Вы комментировали ответ на вопрос о том, почему не стоит использовать полиномиальные функции активации (таймкод 23:12)
    Я правильно понимаю, что это утверждение про полином степени не выше, чем 3, нужно «добить»?
    То есть, наша сеть пытается восстановить функцию, которую, как известно, можно с определенной точностью приблизить к полиному k степени. Утверждение в том, что мы задаём k, поэтому 2-слойная сеть выдаст нам полином степени 1).
    Проблема ведь как раз состоит в вычислительной сложности и опасности бед с градиентами?
    Или я упускаю какую-то деталь, которая позволила бы подучить полный ответ на этот вопрос?

    • @vladislavvorobyev5784
      @vladislavvorobyev5784 2 года назад

      Собственно, мое утверждение, если оно верно, даёт ответ в целом на вопрос, почему не стоит в сетях любой глубины использовать линейные функции активации

    • @alexanderdyakonov8305
      @alexanderdyakonov8305  2 года назад +1

      Ну про проблемы с затуханием/взрывом тут можно не вспоминать. Просто полином ограниченной степени в функции активации - это ограниченное множество функций при любом(!) числе нейронов в сети (т.е. повышение числа параметров даже не будет менять сложность). А любая другая неполиномиальная функция активации гарантирует приближение любой непрерывной функции (правда, теоретически, практически будут проблемы с градиентом и т.п.)

  • @andreib8871
    @andreib8871 Год назад +1

    Александр Геннадьевич, здравствуйте! В лекции (26:50) вы делаете допущение о нулевом смещении при линейных операциях внутри сети. Можете подсказать почему делается это допущение или где можно почитать, чтобы разобраться в этом вопросе?

    • @alexanderdyakonov8305
      @alexanderdyakonov8305  Год назад

      Если у нас есть константный ненулевой признак, то на первом слое смещение не нужно. А на последующих можно тоже обойтись без него, ведь если, например, мы используем сигмоиду, то при нулевых весах нейрон всегда выдаёт константу 1/2, т.е. он реализует смещение для следующего слоя. Поэтому, если смещение необходимо, сеть сама научится его реализовывать (ценой выучивания некоторых параметров).
      Впрочем, в общем случае смещением нельзя пренебречь .

  • @artemtitov8657
    @artemtitov8657 3 года назад +1

    выложите пожалуйста весь курс)))

    • @alexanderdyakonov8305
      @alexanderdyakonov8305  3 года назад +8

      Ну вот начал выкладывать...

    • @mormaks
      @mormaks 3 года назад +1

      @@alexanderdyakonov8305 а записи семинаров и задания будете публиковать?

    • @alexanderdyakonov8305
      @alexanderdyakonov8305  3 года назад +4

      @@mormaks Семинары - да, задания - по крайней мере часть.

    • @artemtitov8657
      @artemtitov8657 3 года назад

      @@alexanderdyakonov8305 Ждем!!!

    • @vladvlad3454
      @vladvlad3454 2 года назад

      @@alexanderdyakonov8305 а где можно увидеть семинары? Или вы их ещё не выкладывали?