Transformers : têtes d'attention et couches
HTML-код
- Опубликовано: 8 ноя 2024
- Dans cette vidéo, on poursuit ce qu'on a vu sur le Transformer dans la première vidéo de la mini série, on y voit comment et pourquoi ajouter plusieurs têtes d'attention et faire étendre les calculs sur plusieurs couches.
La première vidéo sur les Transformers, utile pour comprendre cette vidéo : • Comprendre les Transfo...
Rejoindre la communauté Machine Learning FR : / discord
Me suivre :
Github : github.com/Pro...
Twitter : / alexandretl2
Tu as vraiment un don pour démystifier et rendre accessible pour tout le monde des sujets qui peuvent paraître complexe à première vue. Bravo
Merci beaucoup ça fait super plaisir!
@@alexandretl de rien ! J’aurais juste deux petites questions. La première, c’est pour l’attention Multi tête. si j’ai 5 têtes d’attention . Cela voudrait dire que j’aurai 5 vecteurs key et donc 5 matrice Wq (différentes) ?
Pourtant, quand je regarde, les codes en utilise pas cinq matrice différente, mais on semble plutôt diviser une matrice en cinq, c’est juste que je me trompe ?
@@redia-uz4yv tu as le lien de l'implémentation où il y a une grande matrice comme tu dis ? parce que pour l'instant les différentes implémentations que j'ai vu je voyais en général un tensor qui regroupaient les 5 matrices par exemple mais pas une seule grande matrice que les regroupe
Excellente vidéo ! J'ai adoré l'ensemble de tes explications très claires et complètes qui nous permettent de mieux comprendre les opérations mathématiques qui se cachent derrière ce concept ! Un grand merci :)
Merci pour ton retour ça fait plaisir !