Подскажите, пожалуйста, как соотносится то, что размерности матриц W^Q, W^K, W^V не зависят от числа объектов -- s и то, что трансформер работает с батчами, "добитыми" паддингом до фиксированной длины, а не до максимальной длины по батчу? То есть по сути модель таки требует фиксированное число токенов на вход, но не понятно, почему?
Спасибо за лекцию!
Благодаря ней я окончательно разобрался с трансформерами и весь пазл про них в голове сложился
Подскажите, пожалуйста, как соотносится то, что размерности матриц W^Q, W^K, W^V не зависят от числа объектов -- s и то, что трансформер работает с батчами, "добитыми" паддингом до фиксированной длины, а не до максимальной длины по батчу?
То есть по сути модель таки требует фиксированное число токенов на вход, но не понятно, почему?