Интенсив GPT Week. Лекция 4: "Alignment"

Поделиться
HTML-код
  • Опубликовано: 29 ноя 2023
  • Спикер: Паша Темирчев, разработчик группы поиска смысла
    Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
    1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
    Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
    2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
    Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
    3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
    РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
    В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
    4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
    Метод alignment'а, с которым мы познакомимся на семинаре

Комментарии • 6

  • @ilnaz007
    @ilnaz007 6 месяцев назад +2

    классный лектор, все доступно объяснил

  • @user-sx2ju9nv5o
    @user-sx2ju9nv5o 6 месяцев назад +2

    очень крутой лектор!

  • @mstas1977
    @mstas1977 6 месяцев назад +1

    Лучший лектор!

  • @bukovelby
    @bukovelby 6 месяцев назад

    Какие люди работают в Яндексе, неожиданно классные лекторы!

  • @nikprilutskiy7064
    @nikprilutskiy7064 6 месяцев назад +1

    Очень живая лекция получилась, особенно на контрасте со вчерашней) спасибо!

  • @mgonetwo
    @mgonetwo 6 месяцев назад +2

    Паша похож на джина из восточных сказок лол