DRL Course 2023 | Introduction to Reinforcement Learning. Cross-Entropy Method
HTML-код
- Опубликовано: 10 янв 2024
- Курс Deep Reinforcement Learning 2023: ods.ai/tracks/drlcourse23
Сезон курсов:ods.ai/events/course_season_a...
В первой лекции:
Раскрывается содержательная идея принципа обучения с подкреплением.
Описывается математически строгая постановка задачи обучения с подкреплением в терминах марковских процессов принятия решений.
Рассматриваются примеры задач, которые могут быть формализованы в рамках этой постановки.
Обсуждается понятие политики агента.
При дополнительных ограничениях, исследуется взгляд на задачу обучения с подкреплением как на задачу конечномерно математической оптимизации. Опираясь на это, приводится эволюционный алгоритм Кросс-энтропии, должным образом модифицированный в соответствии с особенностями задачи обучения с подкреплением.
Обсуждаются недостатки этого алгоритма и способы их преодоления.
Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета.
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с вакансиями в matrix: matrix.to/#/#jobs-list:matrix.ods.ai
Большое спасибо что поделились курсом! Золотые знания
Антон, спасибо за лекцию
хорошая лекция, но при рассмотрении формул хотелось бы хотя бы простенький пример в каждом случае увидеть
Большое спасибо за лекцию!
В целом вся понятно и очень интересные примеры.
А вот формулы действительно непонятные.
Если бы помимо формул приводился ещё пример их реализации на python, было бы супер!
На практике большая часть формул была разобрана и оказалась не такой страшной как показалось по лекции.
Но когда дело доходит до выполнения ДЗ и других формул, то вот прям засада... приходится долго сидеть и пытаться понять что есть что в формуле и какая буква что значит и откуда берется, а в итог получается опять таки не сложная строчка кода.