Прикладное машинное обучение 11. Sequence Learning.

Побочки оземпика, расшифровка языка животных, нейросети против бандитов. Илья Колмановский про 2024

Обучение с подкреплением Q-learning, Policy Gradient (Reinforce), Actor-Critic Практика на gym

Buffalo Bills vs. Detroit Lions Game Highlights | NFL 2024 Season Week 15

Neville, Keane & Richards DEBATE Amorim leaving Rashford & Garnacho out of Man United squad

Marvel Rivals | Winter Celebration, Joyful Jubilation

Прикладное машинное обучение 10. Policy gradient.

Лекторий ФПМИ

Просмотров 4,1 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 фев 2025

Комментарии • 6

@cromtus 3 года назад ⁺⁶
1:14:37 Радослав Георгиевич, не расстраивайтесь, я понял отсылку!
@ilyabelov7626 3 года назад
А в чём отсылка??
@cromtus 3 года назад ⁺³
@@ilyabelov7626 ruclips.net/video/efI2wdm6ohA/видео.html, на первых же секундах
@ilyabelov7626 3 года назад ⁺²
@@cromtus Ору
@vasyataburetkin3976 2 года назад
Правильно ли я понял, что в Q-learning нейронка аппроксимирует уравнение Беллмана, а политика заключается в том, что мы выбираем максимум этой самой Q-функции? А в Reinforce нейронка сразу вычисляет политику по состоянию, а reward при этом модулирует loss?
@eduardtsuranov712 4 года назад
45:32 Формула выглядит как "Новые параметры = старые параметры + альфа * градиент реварда", где "градиент реварда" это "средний градиент логарифма ПИ * ревард", но это слишком обще, не понятно как считать "градиент логарифма ПИ"

Следующие

Автовоспроизведение

Прикладное машинное обучение 11. Sequence Learning.

Прикладное машинное обучение 11. Sequence Learning.

Побочки оземпика, расшифровка языка животных, нейросети против бандитов. Илья Колмановский про 2024

Побочки оземпика, расшифровка языка животных, нейросети против бандитов. Илья Колмановский про 2024

Обучение с подкреплением Q-learning, Policy Gradient (Reinforce), Actor-Critic Практика на gym

Обучение с подкреплением Q-learning, Policy Gradient (Reinforce), Actor-Critic Практика на gym

Buffalo Bills vs. Detroit Lions Game Highlights | NFL 2024 Season Week 15

Buffalo Bills vs. Detroit Lions Game Highlights | NFL 2024 Season Week 15

Neville, Keane & Richards DEBATE Amorim leaving Rashford & Garnacho out of Man United squad

Neville, Keane & Richards DEBATE Amorim leaving Rashford & Garnacho out of Man United squad

Marvel Rivals | Winter Celebration, Joyful Jubilation

Marvel Rivals | Winter Celebration, Joyful Jubilation

I.N "HALLUCINATION" | [Stray Kids : SKZ-PLAYER]

I.N "HALLUCINATION" | [Stray Kids : SKZ-PLAYER]

«Жизнестойкость, или Как видеть дальше». Лекция психолога Светланы Штукаревой

«Жизнестойкость, или Как видеть дальше». Лекция психолога Светланы Штукаревой

Время ускоряется, чтобы ОСТАНОВИТЬСЯ? Алексей Семихатов о парадоксах времени и квантовой теории

Время ускоряется, чтобы ОСТАНОВИТЬСЯ? Алексей Семихатов о парадоксах времени и квантовой теории

Как не купить КАТАСТРОФУ в СТАРОМ ФОНДЕ. На что ОБРАТИТЬ ВНИМАНИЕ

Как не купить КАТАСТРОФУ в СТАРОМ ФОНДЕ. На что ОБРАТИТЬ ВНИМАНИЕ

Прикладное машинное обучение 7. Intro to Reinforcement Learning

Прикладное машинное обучение 7. Intro to Reinforcement Learning

Шульман. Путин боится убийства? Куда пропал Кадыров? Сигналы Трампа. Бессмертие и шаманы

Шульман. Путин боится убийства? Куда пропал Кадыров? Сигналы Трампа. Бессмертие и шаманы

Making Real-World Reinforcement Learning Practical

Making Real-World Reinforcement Learning Practical

Татьяна Черниговская ("Как научить мозг учиться?")

Татьяна Черниговская ("Как научить мозг учиться?")

Даниил Трубин - Мастер-класс «Использование Python для обучения с подкреплением»

Даниил Трубин — Мастер-класс «Использование Python для обучения с подкреплением»

Игорь Котенков - RLHF Intro: from Zero to Aligned Intelligent Systems

Игорь Котенков - RLHF Intro: from Zero to Aligned Intelligent Systems

✅Эверест на ЭЛЕКТРО-ВЕЛОСИПЕДАХ ⚡️Экспедиция на Вершину Мира

✅Эверест на ЭЛЕКТРО-ВЕЛОСИПЕДАХ ⚡️Экспедиция на Вершину Мира

Пианозавр и Добрый Доуи 🦎 Poppy Playtime: Chapter 4

Пианозавр и Добрый Доуи 🦎 Poppy Playtime: Chapter 4

100 ДНЕЙ ВО ЛЬДАХ! Как наше судно зажало в Антарктиде. Терпим бедствие

100 ДНЕЙ ВО ЛЬДАХ! Как наше судно зажало в Антарктиде. Терпим бедствие

"Девушка на "Ауди". Ксения КАТОРГИНА

"Девушка на "Ауди". Ксения КАТОРГИНА

Чем завтракают пацаны?

Чем завтракают пацаны?

ДОКТОР УБИТ... (ты не поверишь как) Поппи Плейтайм 4 #6 - Poppy Playtime Chapter 4

ДОКТОР УБИТ... (ты не поверишь как) Поппи Плейтайм 4 #6 - Poppy Playtime Chapter 4

Who remembers how this trend goes? 🤔 #Olympics #Sports #Curling #Attenzione

Who remembers how this trend goes? 🤔 #Olympics #Sports #Curling #Attenzione