Интенсив GPT Week. Лекция 4: "Alignment"
HTML-код
- Опубликовано: 29 ноя 2023
- Спикер: Паша Темирчев, разработчик группы поиска смысла
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре
классный лектор, все доступно объяснил
очень крутой лектор!
Лучший лектор!
Какие люди работают в Яндексе, неожиданно классные лекторы!
Очень живая лекция получилась, особенно на контрасте со вчерашней) спасибо!
Паша похож на джина из восточных сказок лол