DL2022: Трансформер (часть 1)

Поделиться
HTML-код
  • Опубликовано: 4 фев 2025

Комментарии • 2

  • @boriswithrazor6992
    @boriswithrazor6992 2 года назад +5

    Спасибо за лекцию!
    Благодаря ней я окончательно разобрался с трансформерами и весь пазл про них в голове сложился

  • @VladyslavHadzhykhanov
    @VladyslavHadzhykhanov Год назад

    Подскажите, пожалуйста, как соотносится то, что размерности матриц W^Q, W^K, W^V не зависят от числа объектов -- s и то, что трансформер работает с батчами, "добитыми" паддингом до фиксированной длины, а не до максимальной длины по батчу?
    То есть по сути модель таки требует фиксированное число токенов на вход, но не понятно, почему?