На 5:57 нужно домножать не на exp(z), а на exp(z/2), тогда получается softmax(z/2, -z/2). Получается сигмоида выдаёт значения вероятностей ближе к 0.5, чем softmax.
Александр, здравствуйте Вы комментировали ответ на вопрос о том, почему не стоит использовать полиномиальные функции активации (таймкод 23:12) Я правильно понимаю, что это утверждение про полином степени не выше, чем 3, нужно «добить»? То есть, наша сеть пытается восстановить функцию, которую, как известно, можно с определенной точностью приблизить к полиному k степени. Утверждение в том, что мы задаём k, поэтому 2-слойная сеть выдаст нам полином степени 1). Проблема ведь как раз состоит в вычислительной сложности и опасности бед с градиентами? Или я упускаю какую-то деталь, которая позволила бы подучить полный ответ на этот вопрос?
Собственно, мое утверждение, если оно верно, даёт ответ в целом на вопрос, почему не стоит в сетях любой глубины использовать линейные функции активации
Ну про проблемы с затуханием/взрывом тут можно не вспоминать. Просто полином ограниченной степени в функции активации - это ограниченное множество функций при любом(!) числе нейронов в сети (т.е. повышение числа параметров даже не будет менять сложность). А любая другая неполиномиальная функция активации гарантирует приближение любой непрерывной функции (правда, теоретически, практически будут проблемы с градиентом и т.п.)
Александр Геннадьевич, здравствуйте! В лекции (26:50) вы делаете допущение о нулевом смещении при линейных операциях внутри сети. Можете подсказать почему делается это допущение или где можно почитать, чтобы разобраться в этом вопросе?
Если у нас есть константный ненулевой признак, то на первом слое смещение не нужно. А на последующих можно тоже обойтись без него, ведь если, например, мы используем сигмоиду, то при нулевых весах нейрон всегда выдаёт константу 1/2, т.е. он реализует смещение для следующего слоя. Поэтому, если смещение необходимо, сеть сама научится его реализовывать (ценой выучивания некоторых параметров). Впрочем, в общем случае смещением нельзя пренебречь .
На 5:57 нужно домножать не на exp(z), а на exp(z/2), тогда получается softmax(z/2, -z/2). Получается сигмоида выдаёт значения вероятностей ближе к 0.5, чем softmax.
Да, верно.
Александр, здравствуйте
Вы комментировали ответ на вопрос о том, почему не стоит использовать полиномиальные функции активации (таймкод 23:12)
Я правильно понимаю, что это утверждение про полином степени не выше, чем 3, нужно «добить»?
То есть, наша сеть пытается восстановить функцию, которую, как известно, можно с определенной точностью приблизить к полиному k степени. Утверждение в том, что мы задаём k, поэтому 2-слойная сеть выдаст нам полином степени 1).
Проблема ведь как раз состоит в вычислительной сложности и опасности бед с градиентами?
Или я упускаю какую-то деталь, которая позволила бы подучить полный ответ на этот вопрос?
Собственно, мое утверждение, если оно верно, даёт ответ в целом на вопрос, почему не стоит в сетях любой глубины использовать линейные функции активации
Ну про проблемы с затуханием/взрывом тут можно не вспоминать. Просто полином ограниченной степени в функции активации - это ограниченное множество функций при любом(!) числе нейронов в сети (т.е. повышение числа параметров даже не будет менять сложность). А любая другая неполиномиальная функция активации гарантирует приближение любой непрерывной функции (правда, теоретически, практически будут проблемы с градиентом и т.п.)
Александр Геннадьевич, здравствуйте! В лекции (26:50) вы делаете допущение о нулевом смещении при линейных операциях внутри сети. Можете подсказать почему делается это допущение или где можно почитать, чтобы разобраться в этом вопросе?
Если у нас есть константный ненулевой признак, то на первом слое смещение не нужно. А на последующих можно тоже обойтись без него, ведь если, например, мы используем сигмоиду, то при нулевых весах нейрон всегда выдаёт константу 1/2, т.е. он реализует смещение для следующего слоя. Поэтому, если смещение необходимо, сеть сама научится его реализовывать (ценой выучивания некоторых параметров).
Впрочем, в общем случае смещением нельзя пренебречь .
выложите пожалуйста весь курс)))
Ну вот начал выкладывать...
@@alexanderdyakonov8305 а записи семинаров и задания будете публиковать?
@@mormaks Семинары - да, задания - по крайней мере часть.
@@alexanderdyakonov8305 Ждем!!!
@@alexanderdyakonov8305 а где можно увидеть семинары? Или вы их ещё не выкладывали?