LoRA обязательно применять ко всем линейным слоям модели? Есть какое-то исследование на эту тему? Может есть более чувствительные слои? Вопрос еще такой детский. На стадии supervised finetuning мы просто обучаем модель на текстах, которые соответствуют формату наших инструкций? Т.е. учим предсказывать следующее слово, но сами сами тексты уже устроены подходящим нашей задаче образом?
Лору можно применять не ко всем слоям, это настраивается одним параметром в peft. Видел, что иногда применяют на attention матрицы Q, K, V и не трогают feed forward слои, но какого-то исследования с ходу не могу вспомнить
Хорошо поставленный рассказ, все кратко, по содержанию и очень полезно, спасибо :)
Ппц, вот это рокетСайнс 😭. Надо разбираться! Спасибо за контент!
Спасибо за доклад!
LoRA обязательно применять ко всем линейным слоям модели? Есть какое-то исследование на эту тему? Может есть более чувствительные слои?
Вопрос еще такой детский.
На стадии supervised finetuning мы просто обучаем модель на текстах, которые соответствуют формату наших инструкций? Т.е. учим предсказывать следующее слово, но сами сами тексты уже устроены подходящим нашей задаче образом?
Лору можно применять не ко всем слоям, это настраивается одним параметром в peft. Видел, что иногда применяют на attention матрицы Q, K, V и не трогают feed forward слои, но какого-то исследования с ходу не могу вспомнить
Да, Instruction tuning в этом и заключается
Так запустить у себя итоговую модель у себя?