Прикладное машинное обучение 11. Sequence Learning.

Профессор Илья Стребулаев о том, как заработать на своих идеях и ценить свои неудачи

Побочки оземпика, расшифровка языка животных, нейросети против бандитов. Илья Колмановский про 2024

Surprising Son with Dream Car on 16th Birthday

KARATE KID: LEGENDS - Official Trailer (HD)

This Month Was Tough on Us..

Прикладное машинное обучение 10. Policy gradient.

Лекторий ФПМИ

Просмотров 4,1 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 фев 2025

Комментарии • 6

@cromtus 3 года назад ⁺⁶
1:14:37 Радослав Георгиевич, не расстраивайтесь, я понял отсылку!
@ilyabelov7626 3 года назад
А в чём отсылка??
@cromtus 3 года назад ⁺³
@@ilyabelov7626 ruclips.net/video/efI2wdm6ohA/видео.html, на первых же секундах
@ilyabelov7626 3 года назад ⁺²
@@cromtus Ору
@vasyataburetkin3976 2 года назад
Правильно ли я понял, что в Q-learning нейронка аппроксимирует уравнение Беллмана, а политика заключается в том, что мы выбираем максимум этой самой Q-функции? А в Reinforce нейронка сразу вычисляет политику по состоянию, а reward при этом модулирует loss?
@eduardtsuranov712 4 года назад
45:32 Формула выглядит как "Новые параметры = старые параметры + альфа * градиент реварда", где "градиент реварда" это "средний градиент логарифма ПИ * ревард", но это слишком обще, не понятно как считать "градиент логарифма ПИ"

Следующие

Автовоспроизведение

Прикладное машинное обучение 11. Sequence Learning.

Прикладное машинное обучение 11. Sequence Learning.

Профессор Илья Стребулаев о том, как заработать на своих идеях и ценить свои неудачи

Профессор Илья Стребулаев о том, как заработать на своих идеях и ценить свои неудачи

Побочки оземпика, расшифровка языка животных, нейросети против бандитов. Илья Колмановский про 2024

Побочки оземпика, расшифровка языка животных, нейросети против бандитов. Илья Колмановский про 2024

Surprising Son with Dream Car on 16th Birthday

Surprising Son with Dream Car on 16th Birthday

KARATE KID: LEGENDS - Official Trailer (HD)

KARATE KID: LEGENDS - Official Trailer (HD)

This Month Was Tough on Us..

This Month Was Tough on Us..

How might LLMs store facts | DL7

How might LLMs store facts | DL7

Обучение с подкреплением Q-learning, Policy Gradient (Reinforce), Actor-Critic Практика на gym

Обучение с подкреплением Q-learning, Policy Gradient (Reinforce), Actor-Critic Практика на gym

Making Real-World Reinforcement Learning Practical

Making Real-World Reinforcement Learning Practical

Стыдные вопросы про Китай / вДудь

Стыдные вопросы про Китай / вДудь

«Жизнестойкость, или Как видеть дальше». Лекция психолога Светланы Штукаревой

«Жизнестойкость, или Как видеть дальше». Лекция психолога Светланы Штукаревой

Прикладное машинное обучение 7. Intro to Reinforcement Learning

Прикладное машинное обучение 7. Intro to Reinforcement Learning

But what is a neural network? | Deep learning chapter 1

But what is a neural network? | Deep learning chapter 1

Основные теоремы в теории игр - Алексей Савватеев на ПостНауке

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке

Илья Колмановский: «Человеческая система принятия решений зашла в тупик»

Илья Колмановский: «Человеческая система принятия решений зашла в тупик»

Что ЕСЛИ ВЕРНУТЬ ДОЛГ во время ПРЕСЛЕДОВАНИЯ? #gtasanandreas #gta #gtasa #гта #arizonarp #romero

Что ЕСЛИ ВЕРНУТЬ ДОЛГ во время ПРЕСЛЕДОВАНИЯ? #gtasanandreas #gta #gtasa #гта #arizonarp #romero

КТО УДАЛИЛ😱 РОБЛОКС МОИМ ДЕТЯМ?! НАЙДЁШЬ ВИНОВНОГО?😎 #robloxshorts #roblox #brookhaven

КТО УДАЛИЛ😱 РОБЛОКС МОИМ ДЕТЯМ?! НАЙДЁШЬ ВИНОВНОГО?😎 #robloxshorts #roblox #brookhaven

딱지치기🐙🤣Squid Game #funny #shorts @LeeEdenLee

딱지치기🐙🤣Squid Game #funny #shorts @LeeEdenLee

Котенок с сюрпризом

Котенок с сюрпризом

💥 СЛУХИ О КАБАЕВОЙ ЗАПУСТИЛИ СПЕЦСЛУЖБЫ! ЧТО СКРЫВАЕТ ПУТИН?

💥 СЛУХИ О КАБАЕВОЙ ЗАПУСТИЛИ СПЕЦСЛУЖБЫ! ЧТО СКРЫВАЕТ ПУТИН?

Что мы НЕ отправим бабушке 😂

Что мы НЕ отправим бабушке 😂

КОРОЧЕ ГОВОРЯ, ИГРА В КАЛЬМАРА В РЕАЛЬНОЙ ЖИЗНИ 2

КОРОЧЕ ГОВОРЯ, ИГРА В КАЛЬМАРА В РЕАЛЬНОЙ ЖИЗНИ 2

Непосредственно Каха - бургер

Непосредственно Каха - бургер