2:58 что вы несете? Q(s, a) не аппроксимирует R, оно и не сумму взешанную возможных наград, Q аппроксимирует кумулятивную награду в эпизоде. А именно награду от действия "а" принятого в состоянии "s" плюс дисконтированная суммарная награда которую агент получит до конца эпизода, если будет придерживаться текущей стратегии. Вы бы хотя бы с теорией ознакомились прежде чем видео такие делать. 4:51. Боже мой все алгоритмы семества Actor Critic являются on policy, A2C, A3C, TRPO, PPO. То что у нас есть отдельная нейросеть для оценки полезности состояний, никак не влияет на подход on policy или off policy. ( on policy - в вашей охуенной терминологии это будет ЕДИНАЯ СТРАТЕГИЯ, кстати совершенно кошмарный урок про on policy и off policy после которого не ясно в чем отличие ). Еще раз, ознакомьтесь с теорией и не выпускайте до этого видеоролики.
👍
2:58 что вы несете? Q(s, a) не аппроксимирует R, оно и не сумму взешанную возможных наград, Q аппроксимирует кумулятивную награду в эпизоде. А именно награду от действия "а" принятого в состоянии "s" плюс дисконтированная суммарная награда которую агент получит до конца эпизода, если будет придерживаться текущей стратегии. Вы бы хотя бы с теорией ознакомились прежде чем видео такие делать.
4:51. Боже мой все алгоритмы семества Actor Critic являются on policy, A2C, A3C, TRPO, PPO. То что у нас есть отдельная нейросеть для оценки полезности состояний, никак не влияет на подход on policy или off policy. ( on policy - в вашей охуенной терминологии это будет ЕДИНАЯ СТРАТЕГИЯ, кстати совершенно кошмарный урок про on policy и off policy после которого не ясно в чем отличие ).
Еще раз, ознакомьтесь с теорией и не выпускайте до этого видеоролики.