Интенсив GPT Week. Семинар 3: "Alignment"

Интенсив GPT Week. Лекция 1: "Введение в большие языковые модели"

Вечер в Музее. Будущее биомедицины: 4D-печать органов с помощью «умных» материалов

I challenged a famous hacker to a Neopets speedrun

Camping in Whale Graveyard & Treasure Hunting Remote Alaskan Beaches

Jennifer Aniston & Quinta Brunson l Actors on Actors

Интенсив GPT Week. Лекция 4: "Alignment"

Яндекс Образование

Просмотров 3,4 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 29 ноя 2023
Спикер: Паша Темирчев, разработчик группы поиска смысла
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре

Комментарии • 6

@ilnaz007 6 месяцев назад ⁺²
классный лектор, все доступно объяснил
@user-sx2ju9nv5o 6 месяцев назад ⁺²
очень крутой лектор!
@mstas1977 6 месяцев назад ⁺¹
Лучший лектор!
@bukovelby 6 месяцев назад
Какие люди работают в Яндексе, неожиданно классные лекторы!
@nikprilutskiy7064 6 месяцев назад ⁺¹
Очень живая лекция получилась, особенно на контрасте со вчерашней) спасибо!
@mgonetwo 6 месяцев назад ⁺²
Паша похож на джина из восточных сказок лол

Следующие

Автовоспроизведение

Интенсив GPT Week. Семинар 3: "Alignment"

Интенсив GPT Week. Семинар 3: "Alignment"

Интенсив GPT Week. Лекция 1: "Введение в большие языковые модели"

Интенсив GPT Week. Лекция 1: "Введение в большие языковые модели"

Вечер в Музее. Будущее биомедицины: 4D-печать органов с помощью «умных» материалов

Вечер в Музее. Будущее биомедицины: 4D-печать органов с помощью «умных» материалов

I challenged a famous hacker to a Neopets speedrun

I challenged a famous hacker to a Neopets speedrun

Camping in Whale Graveyard & Treasure Hunting Remote Alaskan Beaches

Camping in Whale Graveyard & Treasure Hunting Remote Alaskan Beaches

Jennifer Aniston & Quinta Brunson l Actors on Actors

Jennifer Aniston & Quinta Brunson l Actors on Actors

🔆 SUMMER GAME FEST 2024 (4K60FPS) - Monster Hunter Wilds, Lego Horizon Adventures, Killer Bean

🔆 SUMMER GAME FEST 2024 (4K60FPS) - Monster Hunter Wilds, Lego Horizon Adventures, Killer Bean

Edge Inference | Антон Мальцев | Лекция DeepSchool

Edge Inference | Антон Мальцев | Лекция DeepSchool

lofi hip hop radio 📚 - beats to relax/study to

lofi hip hop radio 📚 - beats to relax/study to

Как обучить нейронную сеть?

Как обучить нейронную сеть?

Программистский сленг: как не запутаться в терминах

Программистский сленг: как не запутаться в терминах

Интенсив GPT Week. Лекция 2.1.: "Про претрейн LLM"

Интенсив GPT Week. Лекция 2.1.: "Про претрейн LLM"

Пространство. От геометрической теории Евклида к геометрии Лобачевского

Пространство. От геометрической теории Евклида к геометрии Лобачевского

20 часов ради СТРАДАНИЯ - Ultrakill

20 часов ради СТРАДАНИЯ - Ultrakill

Dragon Age: The Veilguard | Official Reveal Trailer

Dragon Age: The Veilguard | Official Reveal Trailer

ДААААА! ”НОВОЕ” СТАРИННАЯ КУЗНЯ! “НАШЁЛ-ПРИЦЕП” ТРАКИ. РЕЛЬСЫ. ДЕЛЯНКИ 60Х ГОДОВ! ЭТО НАДО СМОТРЕТЬ!

ДААААА! ”НОВОЕ” СТАРИННАЯ КУЗНЯ! “НАШЁЛ-ПРИЦЕП” ТРАКИ. РЕЛЬСЫ. ДЕЛЯНКИ 60Х ГОДОВ! ЭТО НАДО СМОТРЕТЬ!

Редакция. News: 120-я неделя

Редакция. News: 120-я неделя

Bringing a new meaning to hill sprints 😮‍💨 #hardenduro

Bringing a new meaning to hill sprints 😮‍💨 #hardenduro

СТРИМ-МАФИЯ С ДРУЗЬЯМИ

СТРИМ-МАФИЯ С ДРУЗЬЯМИ

Crepe roll 🫶 #abirzkitchen #cooking

Crepe roll 🫶 #abirzkitchen #cooking

Gegagedigedagedago Против Nuggets Girl . Rank challenge #animation

Gegagedigedagedago Против Nuggets Girl . Rank challenge #animation