DiffTransformer : l'évolution naturelle du Transformer ?

Alexandre TL

Просмотров 2,6 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 30 янв 2025

Комментарии • 43

@alexandretl 3 месяца назад ⁺²
Comme d’habitude, j’espère que la vidéo vous a plu! N'hésitez pas si vous avez des idées pour de futures vidéos.
En savoir plus :
-le papier qui a introduit le DiffTransformer : arxiv.org/abs/2410.05258
-les Talking-Heads Attention (2020), qui a proposé une idée similaire : arxiv.org/abs/2003.02436
-le test d’aiguilles dans une botte de foin (Multi-Need Retrieval) : ruclips.net/video/UlmyyYQGhzc/видео.html
@Deepia-ls2fo 3 месяца назад
Vidéo super claire, la présentation des figures de résultats était très bien faite. :)
@alexandretl 2 месяца назад
Merci beaucoup ça fait très plaisir
@Tatane 3 месяца назад ⁺⁴
Vidéo de grande qualité !
Merci
@GoelWCS 3 месяца назад ⁺³
Contenu extraordinaire ! Quelle qualité ! Quel didactisme! Waouw !
@alexandretl 3 месяца назад ⁺¹
Un grand merci c'est très encourageant 🙏
@epctrade 3 месяца назад
Wao quelle pertinence !! Une justesse et une qualité remarquables merci beaucoup
@alexandretl 3 месяца назад
Ca fait très plaisir merci 💪
@jgcb0071 3 месяца назад ⁺¹
Toujours passionnant et des résultats très intéressant ! Merci beaucoup !
@bozu1206 3 месяца назад
Une des meilleures videos que j'ai pu voir sur le sujet. Bravo!
@alexandretl 3 месяца назад
Merci !
@Mellak 18 часов назад
Cristal clear, Thank you !
@patdesse6693 3 месяца назад
Vos vidéos sont réellement excellentes! Merci beaucoup
@Algneo 3 месяца назад
Toujours très bon. J'aime bien ce truc de review un papier, y en a pas mal de très intéressant qui sortent régulièrement. Après vu la qualité de la vidéo ça doit prendre un certains temps
@alexandretl 3 месяца назад
Merci beaucoup. Oui j'aime bien ce concept aussi, je pense en faire de plus en plus (ça a l'air de pas mal plaire au niveau des comms/vues en plus)
@jenesaispasquoichoisir9512 3 месяца назад
merci beaucoup pour le contenu d'excellente qualité !
@exnihilo1227 3 месяца назад
Video tout bonnement excellente
@philtoa334 3 месяца назад
Super 👍, merci.
@delec9665 3 месяца назад ⁺¹
Masterclass habituelle !
A quand la vidéo sur la compression des llm ?
@alexandretl 3 месяца назад ⁺¹
Merci! Yes c'est toujours prévu, j'essaie de voir quand je vais pouvoir caler ça
@delec9665 3 месяца назад
Très cool ça
@AryFireZOfficiel 3 месяца назад
Superbe vidéo ! C'est génial de produire ce type de vidéo, j'ai adoré. Vous dites avoir entraîné un modèle utilisant le Difftransformer sur la tache HashHop : Est ce que votre code est accessible publiquement ? J'aimerai beaucoup en apprendre plus à ce sujet :-)
@alexandretl 3 месяца назад
Merci beaucoup ça fait très plaisir! Oui le voici : github.com/alxndrTL/hash-hop-hub. Si jamais, voici aussi le blog qui a introduit la tâche début septembre : magic.dev/blog/100m-token-context-windows (un peu frustrant car ils parlent d'une nouvelle architecture "miracle" sans donner de détails...)
@MrNoipe 2 месяца назад
Great overview, do you ever plan on making English videos?
@Bencurlis 3 месяца назад
Excellente vidéo, c'est très clair, merci! Une idée d'où provient le bruit corrélé qui est donc retiré par cette procédure?
Perso je me dis que peut être que c'est le fait que la matrice V n'est plus multipliée par une matrice de valeurs normalisées qui aide.
@alexandretl 3 месяца назад
Merci beaucoup !
Et bien en fait la multiplication par V intervient après cette histoire de bruit, non ? Ou alors tu parles de la couche d'avant ?
Pour la provenance du bruit, ça peut venir d'une sorte de """mauvaise calibration""" entre les produits scalaires qk ? Ce que je veux dire c'est que chaque qk est calculé indépendamment, donc un qk calculé pour un mot qui n'est pas intéressant doit être attribué comme petit, et un qk intéressant grand. Mais le modèle ne sait pas à quel point le qk grand est, donc il ne sait pas à quel point le qk petit doit être mis (puisque derrière il y a softmax qui tient compte des écarts relatifs). Je ne sais pas si c'est compréhensible ahah, et je ne sais pas non plus si c'est vrai, mais c'est comment je le vois
@Bencurlis 3 месяца назад
@@alexandretl V est multipliée à une matrice produite par un softmax en temps normal, donc la matrice softmax a des valeurs strictement positive en espérance. Avec la différence de softmax, l'espérance est de 0 logiquement, ce qui doit aider à avoir des gradients sparse et rendre l'apprentissage plus stable je pense.
Je crois que je vois ce que tu veux dire pour le bruit, effectivement c'est une façon intéressante de voir le truc.
@alexandretl 3 месяца назад
@@Bencurlis Ok ouais d'accord je vois ton explication. J'avais mal compris à la première lecture.
@tens8534 3 месяца назад
Ma question est peut être bête mais il est possible que la tête d'attention s'intéresse aux mots qui suivent ? C'est un choix d'architecture en fonction de la tache que l'on souhaite réaliser ? Sinon merci pour ton contenu qui vulgarise super bien tout en gardant les concepts mathématiques sous jacent.
@janisaiad9505 3 месяца назад
oui cela dépend de ce que l'on fait, on ajoute des masques (causal mask pour ne pas prendre les mots qui suivent)
@alexandretl 3 месяца назад ⁺¹
Merci ! Oui en effet comme le dit @janisaiad9505 c'est possible (par exemple il y a le PrefixLM qui le fait, ce blog résume pas mal de possibilités : pytorch.org/blog/flexattention/). Aussi pour les images par exemple ça n'a aucun intérêt de limiter l'attention, donc on ne met pas de masque
@ciaopeople9664 3 месяца назад
L'important c'est que, toi, tu te comprennes !
On ne sait pas de quoi tu parles, comme si tout le monde connaissait les transformers depuis sa plus tendre enfance !!!
@TheRemiRODRIGUES 3 месяца назад ⁺¹
Il a réalisé une vidéo sur les transformers :
ruclips.net/video/46XbjplgwOw/видео.html
En gros c'est une architecture de réseau de neurones adaptée pour analyser du texte (même si ils peuvent traiter d'autres type de données).
Cette architecture a aussi l'avantage de pouvoir aisément être entrainer à l'aide de carte graphique (GPU), et donc de rendre l'entrainement des réseaux de neurones plus rapide.
Pour finir cette architecture utilise des mécanismes d'attention, ce sont des mécanismes qui aide à contextualiser un mot au sein d'un texte.
Les transformers sont à la base de la majorité des modèles de LLM qu'on utilise aujourd'hui, comme ChatGPT, Gemini, Claude, ...
@ciaopeople9664 3 месяца назад
@@TheRemiRODRIGUES
J'ai bien compris, mais pas grâce à ses explications, ce qui pose problème quand on fait une vidéo pédagogique !
@alexandretl 3 месяца назад ⁺¹
@@ciaopeople9664 Je comprends ta frustration, mais comprends aussi la mienne : c'est assez compliqué pour moi de donner une explication de tout ce qui permet de la comprendre. Certaines personnes pensent que c'est trivial, la vidéo durerais 20 minutes, il y aurait beaucoup de répétition entre les vidéos etc.. Surtout quand j'ai déjà fait des vidéos spécialisées, voir des séries spécialisées, sur le sujet (en l'occurence le Transformer). Des chaînes comme ScienceEtonnantes n'ont pas ce problème car chaque vidéo traite d'un sujet presque totalement différent à chaque fois, donc là pourquoi pas. Mais moi il faudrait que je fasse des rappels de la même chose à chaque fois..
Aussi, par curiosité, j'ai quand même fait un gros rappel sur le mécanisme d'attention. Même sans savoir précisément ce qu'est un Transformer, avec ce rappel, on n'arrive quand même pas à comprendre la vidéo ?
J'ai quand même fait en sorte que ce soit plus compréhensible possible, l'attention c'est là où le modèle regarde, et on veut débruiter ça. Oui biensûr connaître le contexte Transformer aide, mais ce n'est pas le coeur de la vidéo non plus.
@ciaopeople9664 3 месяца назад
@@alexandretl
Désolé de te faire de la peine, mais tes vidéos sont incompréhensibles pour qui ne connait déjà pas un minimum le sujet ...
Et même quand c'est le cas, il y a beaucoup trop de sous-entendus implicites !
Si tu veux vraiment faire ces vidéos, très bien ! Mais tu ne dois pas le faire sans un minimum d'explications ou de renvois aux vidéos précédentes !
La règle d'or en pédagogie, on doit supposer que l'auditeur ne connait "rien" au sujet !
Et sans faire un cours complet, l'auditeur ne doit pas à avoir à combler trop de trous par lui-même !
Sans compter que contrairement à ScienceEtonnante, scienceClic, 3browns1blue, Pbs et Veritasium qui parlent de sujets très conceptuels, tout le monde a vu des transformers au cinéma ! 🤣
Je plaisante, bien sûr !
😊😊😊
@delec9665 3 месяца назад ⁺¹
@AlexandreTL En effet tes vidéos s’adressent à un public sensibilisé aux maths et avec une curiosité pour l’IA. C’est une tranche du public et c’est effectivement pas accessible aux néophytes, et trivial pour un expert. On peut pas s’adresser au monde entier et je trouve que tu gères très bien ton créneau pédagogique : les prémisses sont parfaitement claires et les conclusions sont éclairantes. Ça doit être frustrant de recevoir des commentaires comme le précédent mais je ne pense pas que cela veut dire que tu n’est pas didactique et pédagogue

Следующие

Автовоспроизведение

Mamba : bien parti pour détrôner le Transformer ? Le bilan