Прикладное машинное обучение 10. Policy gradient.

Поделиться
HTML-код
  • Опубликовано: 1 фев 2025

Комментарии • 6

  • @cromtus
    @cromtus 3 года назад +6

    1:14:37 Радослав Георгиевич, не расстраивайтесь, я понял отсылку!

    • @ilyabelov7626
      @ilyabelov7626 3 года назад

      А в чём отсылка??

    • @cromtus
      @cromtus 3 года назад +3

      @@ilyabelov7626 ruclips.net/video/efI2wdm6ohA/видео.html, на первых же секундах

    • @ilyabelov7626
      @ilyabelov7626 3 года назад +2

      @@cromtus Ору

  • @vasyataburetkin3976
    @vasyataburetkin3976 2 года назад

    Правильно ли я понял, что в Q-learning нейронка аппроксимирует уравнение Беллмана, а политика заключается в том, что мы выбираем максимум этой самой Q-функции? А в Reinforce нейронка сразу вычисляет политику по состоянию, а reward при этом модулирует loss?

  • @eduardtsuranov712
    @eduardtsuranov712 4 года назад

    45:32 Формула выглядит как "Новые параметры = старые параметры + альфа * градиент реварда", где "градиент реварда" это "средний градиент логарифма ПИ * ревард", но это слишком обще, не понятно как считать "градиент логарифма ПИ"