Actor-Critic

Поделиться
HTML-код

Комментарии • 2

  • @Brovenko
    @Brovenko 2 года назад

    👍

  • @gregorygorbov4669
    @gregorygorbov4669 Год назад

    2:58 что вы несете? Q(s, a) не аппроксимирует R, оно и не сумму взешанную возможных наград, Q аппроксимирует кумулятивную награду в эпизоде. А именно награду от действия "а" принятого в состоянии "s" плюс дисконтированная суммарная награда которую агент получит до конца эпизода, если будет придерживаться текущей стратегии. Вы бы хотя бы с теорией ознакомились прежде чем видео такие делать.
    4:51. Боже мой все алгоритмы семества Actor Critic являются on policy, A2C, A3C, TRPO, PPO. То что у нас есть отдельная нейросеть для оценки полезности состояний, никак не влияет на подход on policy или off policy. ( on policy - в вашей охуенной терминологии это будет ЕДИНАЯ СТРАТЕГИЯ, кстати совершенно кошмарный урок про on policy и off policy после которого не ясно в чем отличие ).
    Еще раз, ознакомьтесь с теорией и не выпускайте до этого видеоролики.