DRL Course 2023 | Introduction to Reinforcement Learning. Cross-Entropy Method

Поделиться
HTML-код
  • Опубликовано: 10 янв 2024
  • Курс Deep Reinforcement Learning 2023: ods.ai/tracks/drlcourse23
    Сезон курсов:ods.ai/events/course_season_a...
    В первой лекции:
    Раскрывается содержательная идея принципа обучения с подкреплением.
    Описывается математически строгая постановка задачи обучения с подкреплением в терминах марковских процессов принятия решений.
    Рассматриваются примеры задач, которые могут быть формализованы в рамках этой постановки.
    Обсуждается понятие политики агента.
    При дополнительных ограничениях, исследуется взгляд на задачу обучения с подкреплением как на задачу конечномерно математической оптимизации. Опираясь на это, приводится эволюционный алгоритм Кросс-энтропии, должным образом модифицированный в соответствии с особенностями задачи обучения с подкреплением.
    Обсуждаются недостатки этого алгоритма и способы их преодоления.
    Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета.
    Наши соц.сети:
    Telegram: t.me/datafest
    Вконтакте: datafest
    Канал с вакансиями в telegram: t.me/odsjobs
    Канал с вакансиями в matrix: matrix.to/#/#jobs-list:matrix.ods.ai

Комментарии • 4

  • @sama54664
    @sama54664 Месяц назад

    Большое спасибо что поделились курсом! Золотые знания

  • @kova7ev
    @kova7ev 9 месяцев назад +2

    Антон, спасибо за лекцию

  • @Makumazaan
    @Makumazaan 9 месяцев назад +4

    хорошая лекция, но при рассмотрении формул хотелось бы хотя бы простенький пример в каждом случае увидеть

  • @Aleksandrsvideo
    @Aleksandrsvideo 9 месяцев назад

    Большое спасибо за лекцию!
    В целом вся понятно и очень интересные примеры.
    А вот формулы действительно непонятные.
    Если бы помимо формул приводился ещё пример их реализации на python, было бы супер!
    На практике большая часть формул была разобрана и оказалась не такой страшной как показалось по лекции.
    Но когда дело доходит до выполнения ДЗ и других формул, то вот прям засада... приходится долго сидеть и пытаться понять что есть что в формуле и какая буква что значит и откуда берется, а в итог получается опять таки не сложная строчка кода.