Правильно ли я понял, что в Q-learning нейронка аппроксимирует уравнение Беллмана, а политика заключается в том, что мы выбираем максимум этой самой Q-функции? А в Reinforce нейронка сразу вычисляет политику по состоянию, а reward при этом модулирует loss?
45:32 Формула выглядит как "Новые параметры = старые параметры + альфа * градиент реварда", где "градиент реварда" это "средний градиент логарифма ПИ * ревард", но это слишком обще, не понятно как считать "градиент логарифма ПИ"
1:14:37 Радослав Георгиевич, не расстраивайтесь, я понял отсылку!
А в чём отсылка??
@@ilyabelov7626 ruclips.net/video/efI2wdm6ohA/видео.html, на первых же секундах
@@cromtus Ору
Правильно ли я понял, что в Q-learning нейронка аппроксимирует уравнение Беллмана, а политика заключается в том, что мы выбираем максимум этой самой Q-функции? А в Reinforce нейронка сразу вычисляет политику по состоянию, а reward при этом модулирует loss?
45:32 Формула выглядит как "Новые параметры = старые параметры + альфа * градиент реварда", где "градиент реварда" это "средний градиент логарифма ПИ * ревард", но это слишком обще, не понятно как считать "градиент логарифма ПИ"