Александр Голубев - Воркшоп по LLM + RLHF

Поделиться
HTML-код
  • Опубликовано: 29 ноя 2024

Комментарии • 7

  • @OskarKokoschka-u2h
    @OskarKokoschka-u2h Год назад +1

    Хорошо поставленный рассказ, все кратко, по содержанию и очень полезно, спасибо :)

  • @Skayfaks
    @Skayfaks 6 месяцев назад +1

    Ппц, вот это рокетСайнс 😭. Надо разбираться! Спасибо за контент!

  • @ГеоргийХлестов-я6ъ

    Спасибо за доклад!

  • @АлексейСвищев-н7к

    LoRA обязательно применять ко всем линейным слоям модели? Есть какое-то исследование на эту тему? Может есть более чувствительные слои?
    Вопрос еще такой детский.
    На стадии supervised finetuning мы просто обучаем модель на текстах, которые соответствуют формату наших инструкций? Т.е. учим предсказывать следующее слово, но сами сами тексты уже устроены подходящим нашей задаче образом?

    • @alex_golubev13
      @alex_golubev13 Год назад

      Лору можно применять не ко всем слоям, это настраивается одним параметром в peft. Видел, что иногда применяют на attention матрицы Q, K, V и не трогают feed forward слои, но какого-то исследования с ходу не могу вспомнить

    • @alex_golubev13
      @alex_golubev13 Год назад

      Да, Instruction tuning в этом и заключается

  • @kobalt17
    @kobalt17 Год назад

    Так запустить у себя итоговую модель у себя?