DRL Course 2023 | Практическое занятие 1. Cross-Entropy Method.

DRL Course 2023 | Практическое занятие 3. Policy Iteration

Деревья и их ансамбли 2023 | Растим дерево

STAYC(스테이씨) 'Cheeky Icy Thang' MV

Mario Odyssey Hide and Seek just got CLASSIC

The Truth About Bronny James Playing In The NBA

DRL Course 2023 | Introduction to Reinforcement Learning. Cross-Entropy Method

ML Trainings

Просмотров 2,9 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 10 янв 2024
Курс Deep Reinforcement Learning 2023: ods.ai/tracks/drlcourse23
Сезон курсов:ods.ai/events/course_season_a...
В первой лекции:
Раскрывается содержательная идея принципа обучения с подкреплением.
Описывается математически строгая постановка задачи обучения с подкреплением в терминах марковских процессов принятия решений.
Рассматриваются примеры задач, которые могут быть формализованы в рамках этой постановки.
Обсуждается понятие политики агента.
При дополнительных ограничениях, исследуется взгляд на задачу обучения с подкреплением как на задачу конечномерно математической оптимизации. Опираясь на это, приводится эволюционный алгоритм Кросс-энтропии, должным образом модифицированный в соответствии с особенностями задачи обучения с подкреплением.
Обсуждаются недостатки этого алгоритма и способы их преодоления.
Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета.
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с вакансиями в matrix: matrix.to/#/#jobs-list:matrix.ods.ai

Комментарии • 4

@sama54664 Месяц назад
Большое спасибо что поделились курсом! Золотые знания
@kova7ev 9 месяцев назад ⁺²
Антон, спасибо за лекцию
@Makumazaan 9 месяцев назад ⁺⁴
хорошая лекция, но при рассмотрении формул хотелось бы хотя бы простенький пример в каждом случае увидеть
@Aleksandrsvideo 9 месяцев назад
Большое спасибо за лекцию!
В целом вся понятно и очень интересные примеры.
А вот формулы действительно непонятные.
Если бы помимо формул приводился ещё пример их реализации на python, было бы супер!
На практике большая часть формул была разобрана и оказалась не такой страшной как показалось по лекции.
Но когда дело доходит до выполнения ДЗ и других формул, то вот прям засада... приходится долго сидеть и пытаться понять что есть что в формуле и какая буква что значит и откуда берется, а в итог получается опять таки не сложная строчка кода.

Следующие

Автовоспроизведение

DRL Course 2023 | Практическое занятие 1. Cross-Entropy Method.

DRL Course 2023 | Практическое занятие 1. Cross-Entropy Method.

DRL Course 2023 | Практическое занятие 3. Policy Iteration

DRL Course 2023 | Практическое занятие 3. Policy Iteration

Деревья и их ансамбли 2023 | Растим дерево

Деревья и их ансамбли 2023 | Растим дерево

STAYC(스테이씨) 'Cheeky Icy Thang' MV

STAYC(스테이씨) 'Cheeky Icy Thang' MV

Mario Odyssey Hide and Seek just got CLASSIC

Mario Odyssey Hide and Seek just got CLASSIC

The Truth About Bronny James Playing In The NBA

The Truth About Bronny James Playing In The NBA

Race Highlights | 2024 Austrian Grand Prix

Race Highlights | 2024 Austrian Grand Prix

Нейросетевое ранжирование для рекомендательных систем / Кирилл Хрыльченко

Нейросетевое ранжирование для рекомендательных систем / Кирилл Хрыльченко

Как готовятся данные для машинного обучения?

Как готовятся данные для машинного обучения?

Fine-Tuning в ChatGPT. Как дообучить LLM (простым языком и на примере)

Fine-Tuning в ChatGPT. Как дообучить LLM (простым языком и на примере)

Лекция 2. Теорема Пойи. Задача о числе ожерелий.

Лекция 2. Теорема Пойи. Задача о числе ожерелий.

3 УРОК. МЕДИНСКИЙ КУРС 1 ТОМ || Устаз Абдуллах

3 УРОК. МЕДИНСКИЙ КУРС 1 ТОМ || Устаз Абдуллах

#10. Обучение с подкреплением или как загнать машину на гору | Генетические алгоритмы на Python

#10. Обучение с подкреплением или как загнать машину на гору | Генетические алгоритмы на Python

Build an SQL Agent with Llama 3 | Langchain | Ollama

Build an SQL Agent with Llama 3 | Langchain | Ollama

76. 01/07/2024 Nurlan Ismailov (Astana IT University, Kazakhstan)

76. 01/07/2024 Nurlan Ismailov (Astana IT University, Kazakhstan)

POV: ТВОЙ ДРУГ ДУМАЕТ, ЧТО ОН ЭДЕРСОН

POV: ТВОЙ ДРУГ ДУМАЕТ, ЧТО ОН ЭДЕРСОН

Лайфхак, как пить пиво Нахаляву! #прикол #юмор #топ #пранк

Лайфхак, как пить пиво Нахаляву! #прикол #юмор #топ #пранк

какая корейская еда самая любимая? пиши в ком. мой тг «хей! это марьяна!» #шортс #баттл #jisco

какая корейская еда самая любимая? пиши в ком. мой тг «хей! это марьяна!» #шортс #баттл #jisco

НЕ ДЕЛАЙТЕ УКЛАДКИ В САЛОНАХ

НЕ ДЕЛАЙТЕ УКЛАДКИ В САЛОНАХ

Булкин захейтил любимые кроссовки главы Хардкора - Сульянова 😅 #тренды #топ

Булкин захейтил любимые кроссовки главы Хардкора - Сульянова 😅 #тренды #топ

Как выходим с тройняшками 🙃

Как выходим с тройняшками 🙃

Incredible magic 🤯✨

Incredible magic 🤯✨

Whose action is better?🥹 #filaretiki #shorts

Whose action is better?🥹 #filaretiki #shorts