Llama 3.1: разбор статьи. Часть 5. DPO.

Поделиться
HTML-код
  • Опубликовано: 15 сен 2024
  • Разбираем статью "The Llama 3 Herd of Models" (2024) со слушателями нашей AI-школы, раздел 4.1.4 Direct Preference Optimization.
    Плейлист с разбором Llama 3.1:
    • Llama 3.1: разбор статьи
    Все видео плейлиста:
    1. Intro & Data mix: • Llama 3.1: разбор стат...
    2. Model Architecture & Scaling laws: • Llama 3.1: разбор стат...
    3. Pre-training: • Llama 3.1: разбор стат...
    4. Reward modeling & Supervised Fine-tuning: • Llama 3.1: разбор стат...
    Телеграм-канал:
    t.me/razinkov_ai
    Список моих открытых курсов по AI на RUclips:
    t.me/razinkov_...
    Предварительная регистрация в следующий поток AI-школы:
    razinkov.ai/sc...

Комментарии • 5

  • @irinakrivichenko7824
    @irinakrivichenko7824 11 дней назад

    Евгений, благодарю!
    Возник вопрос: RLHF ,несмотря на свои недостатки , решал проблему объёма данных, который требовалось собрать от разметчиков. Решается ли как-то эта проблема в DPO?
    P.S. курсор на ютубе виден ;)

    • @razinkov
      @razinkov  9 дней назад

      Ирина, не вижу здесь недостатков у DPO по сравнению с RLHF, но, возможно, я чего-то не понимаю. Может быть, вы уточните свой вопрос?
      P.S. А его положение соответствует тому, что обсуждается в этот момент?) Мне кажется, может не соответствовать)

    • @irinakrivichenko7824
      @irinakrivichenko7824 9 дней назад

      ​@@razinkov
      RLHF помогает уменьшить объём данных, необходимых для разметки, за счёт использования модели вознаграждений. На основе собранных данных обучается модель вознаграждений, которая далее оценивает, насколько хорошо модель соответствует человеческим предпочтениям. Соответственно LLM может обучиться на куда более большем объёме данных, чем тот который был размещен людьми.
      В DPO используется только те примеры, которые были размещены пользователями? Не нашла нигде, что в DPO как-то расширяют ещё обучающую выборку.
      P.s. да , соответствует

    • @razinkov
      @razinkov  9 дней назад

      @@irinakrivichenko7824 DPO эту же проблему решает, как я понимаю. Модель наград там ведь тоже есть, просто неявная.

    • @irinakrivichenko7824
      @irinakrivichenko7824 8 дней назад

      ​Кажется я разобралась.
      Обозначения:
      x - это входной запрос(инструкция), на который модель должна ответить.
      y - это возможные ответы модели на данный запрос. Если при у стоит нижний индекс w или l , то это один конкретный ответ.
      π(y∣x) - Вектор вероятностей того, что конкретный ответ будет выбран моделью как наиболее подходящий для данного запроса.
      θ - индекс для обучаемой модели
      ref - индекс для рефересной модели
      В качестве награды за ответ используется логарифм от вероятность генерация ответа обучаемой модели делённой на вероятность референсной (исходной) модели.
      DPO максимизирует разность наград между победившим и проигравшим ответами. При этом информацию, какой ответ победивший, какой проигравший , можно взять как из размеченной выборки, так и от Брэдли-Терри модели.
      Брэдли Терри модель принимает эмбеддинги на оба ответа и выдает вероятность, что человек предпочтёт первый ответ второму. Это позволяет учитывать предпочтения пользователей на тех данных, которые не были размещены.