Видео 64
Просмотров 257 217

Mamba : bien parti pour détrôner le Transformer ? Le bilan

14:04

Générer des noms de communes françaises, en Python.

30:53

Comment interpréter ce qui se passe dans un réseau de neurones ?

34:25

Qu'est-ce que le Mixture of Experts (MoE) ?

12:28

SARSA vs Q-learning | Intro RL 7

11:44

Mamba, le remplaçant du Transformer ?

19:39

2 expériences (a priori) contradictoires sur les LLMs

Dans cette vidéo, on étudie deux séries d'expériences a priori contradictoires sur les modèles de langage géants (LLMs). La première série d'expérience nous laisse penser que les LLMs sont de simples perroquets, seulement capables de restituer leurs données d'entraînement sans pouvoir les combiner, les généraliser. La seconde série d'expérience vient nuancer cela en montrant que, dans une certaine mesure, les LLMs sont capables de combiner les données d'entraînement et d'en tirer des conclusions non triviales. Ces expériences nous permettent de tirer des "modèles mentaux" de ces LLMs, qui nous permettent d'expliquer, de façon très large, le comportement de ces modèles de langage géants.
0:...

Видео

Mamba : bien parti pour détrôner le Transformer ? Le bilan

14:04

Mamba : bien parti pour détrôner le Transformer ? Le bilan

Просмотров 5 тыс.Месяц назад

Dans cette vidéo, on fait le bilan sur ces 7 mois de développement autour de Mamba, une nouvelle architecture qui fait face au Transformer. 0:00 : Introduction 1:53 : Les applications 4:47 : Les faiblesses 9:12 : Contres ces faiblesses Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA Me suivre : Github : github.com/alxndrTL Twitter : AlexandreTL2

Générer des noms de communes françaises, en Python.

30:53

Générer des noms de communes françaises, en Python.

Просмотров 547Месяц назад

Dans cette vidéo, on construit pas à pas des modèles capables de générer des noms de communes françaises. De la méthode la plus simple, qui se base sur des comptages de lettres, jusqu'à des méthodes plus poussées se basant sur des réseaux de neurones. -Andrej Karpathy : ruclips.net/user/andrejkarpathy 0:00 : Introduction 0:57 : Approche statistique 8:59 : Réseaux de neurones 16:27 : Remarque su...

Comment interpréter ce qui se passe dans un réseau de neurones ?

34:25

Comment interpréter ce qui se passe dans un réseau de neurones ?

Просмотров 6 тыс.2 месяца назад

On le dit souvent, les réseaux de neurones sont des boîtes noires qu'on n'arrive pas à interpréter... Alors, surement que des modèles comme ChatGPT ou Claude 3, avec des centaines de milliards de paramètres, sont loin d'être interprétables ? Et bien non. Dans cette vidéo, on voit une technique qui permet d'interpréter "ce qui passe dans un réseau de neurones", ou plus précisément, identifier le...

Qu'est-ce que le Mixture of Experts (MoE) ?

12:28

Qu'est-ce que le Mixture of Experts (MoE) ?

Просмотров 2,4 тыс.4 месяца назад

Dans cette vidéo, on s'intéresse au Mixture Of Experts (MoE), une technique très utilisée dans les plus grands LLMs comme GPT-4, Mixtral 8x7B ou Mixtral 8x22B. En quelques mots, il s'agit d'associer plusieurs experts. Mais quel est l'intérêt ? Quelques ressources en lien avec le MoE: -A Review of Sparse Expert Models in Deep Learning : arxiv.org/abs/2209.01667 -Papier Mixtral 8x7B : arxiv.org/a...

11:44

SARSA vs Q-learning | Intro RL 7

Просмотров 4406 месяцев назад

Dans cette vidéo, on compare les algorithmes de SARSA et de Q-learning sur deux environnements classiques du RL : FrozenLake et CliffWalking. On étudie rapidement le comportement de ces deux algorithmes face à différents choix de alpha et epsilon. Sur CliffWalking, on voit en pratique la différence fondamentale entre ces deux algorithmes : l'un tient compte de l'exploration dans sa politique, l...

19:39

Mamba, le remplaçant du Transformer ?

Просмотров 1,3 тыс.6 месяцев назад

Dans cette vidéo, on s'intéresse à Mamba, une nouvelle architecture qui pourrait remplacer le Transformer. Mamba est une architecture qui traite des séquences de données, comme du texte, qui est une séquence de mots. 0:00 : Introduction 0:38 : Mamba = RNN ? 1:26 : 1) RNN 4:15 : 2) Sélection 7:58 : 3) Delta et SSM 12:05 : Architecture complète 14:38 : Avantages de Mamba 16:22 : Inconvénients de ...

Guide PyTorch : la représentation des tenseurs en mémoire

12:44

Guide PyTorch : la représentation des tenseurs en mémoire

Просмотров 1,1 тыс.7 месяцев назад

Dans cette vidéo, on s'intéresse à la manière qu'a PyTorch de manipuler en mémoire les tenseurs : représentation d'un tenseur (taille, stride, ...) et l'utilisation de ces meta-données dans des opérations comme la transposition ou le redimensionnement. 0:00 : Introduction 0:33 : Le vecteur 1:48 : Les matrices 6:14 : Transposition 8:21 : Autres opérations 10:12 : Notes Rejoindre la communauté Ma...

10:31

IA 2023 : Ce qu'il faut retenir

Просмотров 9378 месяцев назад

Dans cette vidéo, on récapitule les tendances majeures observées dans le monde de la recherche en IA pendant l'année 2023. Evidemment, une seule vidéo ne peut résumer tout ce qui a été produit en une année, mais comprendre les tendances globales permet d'avoir un meilleur recul sur ce qui se passe. Le site labs.perplexity.ai a été utilisé pour l'inférence avec Mistral et Mixtral. GPT-4 : openai...

12:38

Q-learning | Intro RL II - 6

Просмотров 4899 месяцев назад

Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA (ainsi que n-step TD), on s'attaque maintenant au fameux Q-learning ! Il est très différent de MC et TD, puisqu'il s'agit d'un algorithme off-policy. On voit ce que ça veut dire dans la vidéo, ainsi que les origines de cette différence. 0:00 : Ce qui a été vu 1:06 : On-policy / off-policy 3:16 : Lien partie I et II 5:02 : Q-learn...

6:10

Algorithme n-step TD | Intro RL II - 5

Просмотров 34710 месяцев назад

Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA dans le cadre du model-free, on introduit un nouvel algorithme, n-step TD, qui réunit en un seul algorithme MC et SARSA. Concrètement, MC correspond au cas où n vaut l'infini, et SARSA au cas n=1. NOTE : L'algorithme dénommé "n-step SARSA" dans la vidéo doit plutôt s'appeler n-step TD Contrôle, c'est une erreur de ma part. Si on ...

Ces IA qui s'entraînent dans leur imagination

13:08

Ces IA qui s'entraînent dans leur imagination

Просмотров 4,5 тыс.10 месяцев назад

Dans cette vidéo, on s'intéresse à une famille d'algorithmes qui possèdent une modélisation, une simulation du monde qui les entoure : que ce soit sur Minecraft ou sur la route, l'algorithme arrive à recréer l'environnement dans lequel il évolue. Cette reproduction s'effectue dans un état "compressé" : par exemple pour Minecraft, au lieu de recréer des images, il travaille avec des états qui dé...

J'ai testé DALLE 3 : quelles nouveautés ?

3:21

J'ai testé DALLE 3 : quelles nouveautés ?

Просмотров 1,8 тыс.11 месяцев назад

Dans cette vidéo, on parle de la nouvelle version de DALLE, le modèle d'OpenAI qui permet de générer des images à partir d'une simple description. Trois nouveautés au menu : une meilleure écoute du prompt, la possibilité de générer du texte dans l'image, l'intégration avec ChatGPT. 0:00 : Introduction 0:16 : de meilleures images 0:30 : meilleure écoute 1:42 : générer du texte 2:14 : intégré ave...

Pourquoi ChatGPT connait vos attentes et préférences

8:55

Pourquoi ChatGPT connait vos attentes et préférences

Просмотров 1,3 тыс.11 месяцев назад

Dans cette vidéo, on explique ce qui a permis de passer de GPT à ChatGPT. Ce passage est très important, puisqu'il explique comment GPT a su s'adapter à répondre aux attentes des humains, en devenant ChatGPT. 0:00 : Introduction 0:23 : Les modèles de langage 1:28 : Adapter GPT 2:17 : L'alignement 5:43 : Prise de recul Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA Me suivre...

Architecture encodeur-décodeur du Transformer

15:18

Architecture encodeur-décodeur du Transformer

Просмотров 1,3 тыс.11 месяцев назад

On poursuit notre exploration de l'architecture du Transformer. Plus précisément, on voit comment utiliser ce qu'on a vu pour l'appliquer à des tâches classiques de manipulation de texte, comme la génération de texte, la classification ou encore la traduction. 0:00 : Introduction 0:25 : Génération de texte 3:04 : Classification de texte 5:52 : Encodeur et décodeur 7:24 : Encodeur-décodeur 12:52...

Les champions du monde de drones battus par une IA

9:52

Les champions du monde de drones battus par une IA

Просмотров 102 тыс.Год назад

Les champions du monde de drones battus par une IA

Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)

4:00

Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)

Просмотров 2,6 тыс.Год назад

Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)

Visualiser la fonction coût d'un réseau de neurones

9:57

Visualiser la fonction coût d'un réseau de neurones

Просмотров 1,7 тыс.Год назад

Visualiser la fonction coût d'un réseau de neurones

9:56

Biais, variance et sur-apprentissage

Просмотров 943Год назад

Biais, variance et sur-apprentissage

Algorithme d'apprentissage SARSA | Intro RL II - 4

20:18

Algorithme d'apprentissage SARSA | Intro RL II - 4

Просмотров 401Год назад

Algorithme d'apprentissage SARSA | Intro RL II - 4

Qu'est-ce qui se passe dans un réseau de neurones ?

11:40

Qu'est-ce qui se passe dans un réseau de neurones ?

Просмотров 3,1 тыс.Год назад

Qu'est-ce qui se passe dans un réseau de neurones ?

Transformers : têtes d'attention et couches

9:27

Transformers : têtes d'attention et couches

Просмотров 1,5 тыс.Год назад

Transformers : têtes d'attention et couches

Comprendre les Transformers en 10 minutes

10:23

Comprendre les Transformers en 10 minutes

Просмотров 8 тыс.Год назад

Comprendre les Transformers en 10 minutes

Les réseaux de neurones récurrents illustrés

6:43

Les réseaux de neurones récurrents illustrés

Просмотров 2,1 тыс.Год назад

Les réseaux de neurones récurrents illustrés

16:00

Régression linéaire en Python

Просмотров 1,5 тыс.Год назад

Régression linéaire en Python

Se former au ML : quelle stratégie ? quelles ressources ?

5:44

Se former au ML : quelle stratégie ? quelles ressources ?

Просмотров 713Год назад

Se former au ML : quelle stratégie ? quelles ressources ?

1:30

Conclusion de la série

Просмотров 932Год назад

Conclusion de la série

Classification multi-classes avec un réseau de neurones

7:46

Classification multi-classes avec un réseau de neurones

Просмотров 2,7 тыс.Год назад

Classification multi-classes avec un réseau de neurones

12:11

Les maths des réseaux de neurones

Просмотров 4,8 тыс.Год назад

Les maths des réseaux de neurones

13:10

Comprendre les réseaux de neurones

Просмотров 22 тыс.Год назад

Comprendre les réseaux de neurones

@chrisder1814 3 дня назад
est ce que je peux faire un rag ou fine tunning très simplement ? je ne connais que dale au code
@alexandretl 3 дня назад
C'est en partie possible, pour faire du fine tuning je te conseille de regarder Cohere : docs.cohere.com/docs/fine-tuning-with-the-cohere-dashboard (là ce sera la méthode la plus simple mais sûrement aussi la plus chère). Sinon, en alternatives "ouvertes" il y a unsloth (github.com/unslothai/unsloth) les instructions sont assez claires (tout sera en anglais par contre)
@chrisder1814 3 дня назад
@@alexandretl c'est quoi la différence entre le rag, le fine tuning et un custom gpt? j'ai cru comprendre qu'il y en a un ou plusieurs qui permettent qu'une IA n'alucine pas ?
@alexandretl 2 дня назад
@@chrisder1814 oui je dirais que c'est le RAG qui permet de limiter au max les hallucinations. -le RAG permet de donner les connaissances nécessaires pour répondre à la question de l'utilisateur "en live". dès que tu poses la question, le système RAG va accoler au contexte du LLM des bouts d'une base de connaissance en lien avec ta question. -le fine-tuning c'est "juste" de modifier le comportement des LLMs (au sens des paramètres). donc on peut aussi leur faire apprendre de nouvelles choses. -les custom GPTs c'est juste des GPT normaux auquel on donne (il me semble) un "prompt système" particulier (c'est à dire des consignes) et pourquoi pas des actions
@chrisder1814 День назад
@@alexandretl ok bah merci de ces précisions, est-ce que je pourrais t'écrire
@alexandretl День назад
@@chrisder1814 yes tu peux me trouver sur discord (nom d'user procuste)
@chrisder1814 4 дня назад
trop fort, est-ce qu'un custom GPT c'est du fine tuning? moi qui ne connais que dalle au code est-ce qu'il y a une façon simple de faire un rag ou du fine tuning parce que les réponses que j'obtiens quand je lui dis que c'est un expert dans un sujet il me fait des tutos complètement claqué
@chrisder1814 4 дня назад
salut moi qui n'y connais rien au code est-ce qu'il y a moyen que je fasse du fine tuning ou un rag très facilement je veux dire les réponses que j'obtiens , les tutos sont carrément HS est-ce qu'un custom GPT c'est du fine tuning ?
@yayasy1362 5 дней назад
Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.
@alexandretl 5 дней назад
Oui c'est une bonne remarque on soupçonne aussi le côté auto-regressif en effet
@jean-micheltorres6925 5 дней назад
Excellente vidéo, comme d'habitude ! MERCI !
@automatescellulaires8543 6 дней назад
du coup la réduction de dimensionnalité 13:13 utilise quel algorithme ?
@alexandretl 6 дней назад
J'ai utilisé PCA (j'avais aussi testé tSNE mais les résultats étaient moins clairs que ceux visualisés)
@automatescellulaires8543 6 дней назад
@@alexandretl umap est plus flexible de ce que j'ai entendu dire (et aussi plus rapide je crois). Sinon dernièrement j'ai vu passer le sigle PaCMAP (je connaissais pas). ruclips.net/video/sD-uDZ8zXkc/видео.html
@alexandretl 5 дней назад
@@automatescellulaires8543 Merci je ne connaissais pas PaCMAP
@Sabrarch 7 дней назад
Super vidéo bravo
@alexandretl 7 дней назад
Merci!
@CarpeMC 8 дней назад
Merci pour cette vidéo très intéressante
@jgcb0071 8 дней назад
toujours très intéressant bravo !
@alexandretl 7 дней назад
Merci bien!
@valerykyungu 8 дней назад
6:57 Kinshasa ✨ je m'y attendais pas du tout ❤
@ced1401 8 дней назад
Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...". Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant <3
@alexandretl 7 дней назад
Yes finalement ce sera surement une mini série, ça s'annonce pas mal!
@bause6182 8 дней назад
Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...
@alexandretl 7 дней назад
Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie. Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!
@bacrima6382 2 дня назад
C'est une bonne chose du coups si ça ralentit la recherche.
@bossgd100 8 дней назад
Tu penses que les futures LLM qui seront plus gros seront faire que cela ou auront des nouvelles propriétés (émergentes) ?
@alexandretl 7 дней назад
Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas
@bossgd100 7 дней назад
@@alexandretl dac je vois, j'espère que tu te trompe ^^
@bacrima6382 2 дня назад
Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent. Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.
@alexandretl 2 дня назад
@@bacrima6382 concernant l'addition modulaire, tu parles de l'expérience du grokking ?
@bacrima6382 День назад
@@alexandretl je crois que c'est ça oui
@Algneo 8 дней назад
Il n'y a pas vraiment de contradiction entre prédire le mot le plus probable et créer une représentation interne : la meilleure façon de prédire le mot le plus probable est justement de développer une représentation interne. C'est l'opposition qu'on fait entre un perroquet stochastique et un agent qui comprend qui me semble fallacieuse, un bon perroquet stochastique doit avoir un certains degré de compréhension. Et si les LLM ne connectent pas tous les points c'est peut-être que la taille des données ou la durée de l'entraînement n'est pas encore suffisante pour qu'ils capturent toute la structure d'un agent qui produit du langage.
@alexandretl 8 дней назад
Oui je suis d'accord avec toi mais je ne crois pas avoir dit* qu'il y avait une contradiction entre "prédire le mot le plus probable" et "créer une représentation interne". Ce que je voulais dire, c'est qu'avoir en tête le modèle de "générateur du mot le plus probable" (au sens de : parmi les phrases des données d'entraînement qui ressemblent au prompt, quel est le prochain mot le plus courant?) nous permet difficilement d'expliquer les expériences connecting the dots. J'axe donc plus mon discours sur la façon dont on se représente ces modèles. Je suis d'accord qu'au final, ça revient à décrire différents visage d'une même chose (cf 11:42), mais pour quelqu'un de novice qui regarde la vidéo, penser "générateur du mot le plus probable" n'implique pas tout de suite "représentation interne". C'est au final le but de la vidéo. Je dis d'ailleurs bien à la fin que les deux "modèles mentaux" sont valables et qu'on peut en choisir un ou autre en fonction du contexte.
@lesfreresdelaquote1176 8 дней назад
@@alexandretl M. Phi avait fait une très bonne analogie. Comment considèrerait-on un modèle entrainé à prédire le prochain coup de Magnus Carlsen? Un très bon joueur d'échec ou un perroquet stochastique??? En effet, un transformer peut être facilement entrainé à prédire le coup suivant si on l'entraine avec les millions de partie encodées en PGN. Autre chose, la plupart des LLM sont entrainés sur un nombre ridicule d'époque, 1 ou 2... Ce qui signifie qu'il ne voit les données d'entrainement le plus souvent qu'une fois...
@krimod 8 дней назад
Très bonne vidéo, merci à toi ! Pour ce qui est du soucis généralisation de B=A à partir A=B, est ce que tu penses que si on avait le moyen de doubler la taille du dataset d'entrainement et de construire les inférences inverses (en utilisant un LLM par exemple) réglerais le problème ou bien en créera d'autres ?
@alexandretl 8 дней назад
Merci! Ca pourrait en effet régler le problème "superficiellement" (il saurait qui est l'enfant de Mary Lee Pfieffer) mais de là à lui permettre d'automatiquement généraliser de A=B à B=A pas sur. En fait ce qui serait intéressant c'est d'entraîner un LLM sur des données synthétiques du type A=B et B=A et voir si il arrive à apprendre à généraliser de A=B à B=A. (dans la vidéo, c'est seulement du sur-entraînement, sur très peu de données).
@alexandretl 8 дней назад
J’espère que la vidéo vous a plu ! Quelques notes et ressources dont je n’ai pas parlé dans la vidéo : -ma reproduction de l’expérience A=B/B=A : ça marche bien ! x.com/AlexandreTL2/status/1725966137161056515 -une interprétation plus « concrète » de la non généralisation de B=A à partir A=B existe aussi. Elle se base sur l’étude de « circuits » dans les Transformers (domaine de la mechanistic interpretability). On se rend compte en fait que les faits stockés dans les Transformers le sont seulement « dans un sens ». C’est un autre point de vue. -dans la vidéo, on a parlé de deux « modèles mentaux » qu’on peut avoir sur les LLMs. Vous pouvez en découvrir un troisième ici : substack.com/@fchollet/p-137628402. Ce modèle permet de comprendre pourquoi le « prompting » est nécessaire lorsqu’on utilise des LLMs (ie, formuler correctement la demande pour faire effectuer une tâche précise). L’idée globale est de dire que les LLMs sont des base de données de « programmes », et le prompting permet de retrouver le bon programme. Par « programme », on peut par exemple retrouver : « traduction anglais -> français » ou « réécrire un poème dans le style de Victor Hugo ». -récemment, une étude sur le « grokking » a permis de mettre en avant une méthode d’entraînement qui permet aux Transformer de « raisonner implicitement », le même phénomème qu’observé dans les expériences « Connecting the dots » : combiner des exemples d’entraînement pour en tirer des conclusions. Le grokking désigne le moment de l’entraînement où les performances du modèle passent de « très bon sur les données d’entraînement, mauvais sur les données de test » à « très bon sur les données d’entraînement, très bon sur les données de test ». Autrement dit, le moment où le modèle arrive à généraliser ce qu’il a appris à de nouvelles données jamais vues. Le lien : x.com/BoshiWang2/status/1795294846212567089
@CelianBaudet 12 дней назад
Hello l'explication est top, via quel logiciel tu fais ton motion pour expliquer les concepts ?
@alexandretl 12 дней назад
Merci! J'utilise manim, donc je scripte les animations en Python
@chrisder1814 13 дней назад
trop fort
@capitainehaddock9989 13 дней назад
Merci beaucoup pour votre travail, et s'il vous plait continuer le plus longtemps possible Merci !!
@alexandretl 12 дней назад
C'est très encourageant merci, oui les vidéos sur le RL reprendront
@capitainehaddock9989 19 дней назад
HEY merci pour ton travail.
@eliottvalette2453 Месяц назад
Très clair merci
@guillaumedesurville2760 Месяц назад
Super video, le travail est de vraiment qualité ! PS: Y a-t-il une raison particulière dans le code d'utiliser : for (c, i) in zip(vocabulaire, range(len(vocabulaire))): Au lieu de : for i,c in enumerate(vocabulaire):
@alexandretl Месяц назад
Merci! Je t'ai répondu sur github
@maloukemallouke9735 Месяц назад
Merci pour les vidéos, je voulais te demander de faire une vidéo spéciale sur le traitement du facteur de temps dans les transformer comment il garde ne mémoire les informatisations par rapport a une série temporelle de valeur numérique comme la météo par exemple?
@alexandretl Месяц назад
Si c'est une vidéo sur les positional embeddings c'est prévu que je la fasse. C'est ce qui permet au transformer de prendre en compte l'ordre des valeurs d'une séquence
@maloukemallouke9735 Месяц назад
@@alexandretl mille mercis mais le facteur que je ne visualise pas dans les Transformer c est le "Temps" l évolution ce n est pas claire pour moi (peut être pour d'autres aussi) et la question de mémoire mais je veux être spécifique pour des traitement de données pas de texte (comme les régression pour donner une image)
@MsBowner Месяц назад
Tu as la même voix que dirty biology ....
@alexandretl Месяц назад
C'est la deuxième fois que je reçois ce commentaire ahah
@MsBowner Месяц назад
@@alexandretl Non, mais c'est fou, tu as la même intonation, la même voix, etc Bon, avoue-nous que c'est toi Léo derrière cette chaine XD
@alexandretl Месяц назад
@@MsBowner non je te l'assure x)
@cainabel2553 Месяц назад
Pq sphère? C'est cylindre hi hi hi
@alexandretl Месяц назад
Les deux sont possibles, même si le cylindre est plus simple :)
@christiantheophanegasore3786 Месяц назад
Numba la combinaison de numba et Numpy c'est cool pour la vision par ordinateur!
@nicolasdevaux734 Месяц назад
vidéo très intéressante. t'as oublié le xlstm qui est une bonne alternative aussi ^^.
@alexandretl Месяц назад
Oui en effet j'ai oublié de le mettre à la fin
@noahsarcana Месяц назад
Un dictionnaire qui parle, je veux dire un réseau de neurone c'est comme un dictionnaire qui parle. Il fait pas encore le café..
@noahsarcana Месяц назад
Il y a quand même certains signes qui ne trompent pas.. Je ne vais peut être pas acheter la dernière Nviva tout compte fait
@Zoragna Месяц назад
Ils ont sérieusement appelé un truc de ML "vim" ? sans réfléchir ? Vraiment les notebooks jupyter ça ravage le cerveau
@eliefrossard Месяц назад
Combiner les deux, c'est souvent un principe de base ! C'est ouf que l'attention ne serve plus qu'à 8% des parametres sur le modèle hybride d'ailleurs. Ca ma rappelle comment les modèles comme midjourney sont apparus, en combinant les LLM avec les modèles de traitement de l'image pour aboutir à un prompt qui génère des images qui existent pas :D
@raiden631 Месяц назад
Vidéo très visuelle et super intéressante, merci!
@alexandretl Месяц назад
Merci!
@Nox-gu9cj Месяц назад
Explication très claire, merci ! C'est un contenu d'une grande qualité car 1) On ne brade pas sur la "complexité" du modèle à travers des explications par analogie ou métaphores, on rentre dans les maths et 2) Malgré ça tu donnes des explications claires avec un montage simple comme il faut qui transmet de bonnes représentations pour aider à la compréhension.
@alexandretl Месяц назад
Merci pour ton retour!
@Nox-gu9cj Месяц назад
@@alexandretl C'est moi qui te remercie pour le contenu de qualité que tu mets gratuitement à disposition 👏
@patdesse6693 Месяц назад
Il faut beaucoup d'intelligence humaine pour créer un peu d'intelligence artificielle 😅
@alexandretl Месяц назад
Et oui, et des centaines de millions de $$ aussi (pour l'instant)
@dofeeeeee Месяц назад
Merci beaucoup pour toutes tes vidéo !! Ta 1ere m'a déjà était super utile pour mon implémentation sur Burn, maintenant je vais faire la maj et j'ai quelques nouvelles idées X,)
@alexandretl Месяц назад
Ravi d''avoir pu aidé!
@crocodil.13 Месяц назад
Je serais ravis d'une petite video qui fait un tour d'horizon des differentes autres architechtures dont vous parlez! J'avoue a avoir du mal a imaginer autant de facon de faire, comme votre petit shema le laisser deviner😍 Pour la petite histoire, ya quelques annés j'avais tenté un truc farfelu a souhait, un espece de bouillit de neurone (avec des boucles l'infinit), et une methode de récompense assez foireuse basée sur la frequence d'activation, l'activation la plus récente, la distance par rapport a la sortie et une petite memorisation des chemins empruntés... je voulais que le modele puisse continuer tourner dans le vide en produisant ou non des sorties qu'il y ai entrée ou non, un peu comme si il reflechissait le temps que il le souhaite avant de repondre .... eh bien je me suis rendu compte que j'aurais du faire des etudes dans le sujet a la place de réinventer la roue, au final ca a donné un generateur de nombre aléatoires infernal xD Evidament j'etait plus jeune et je ne me rendais pas compte que c'etait pas si simple, mais je serais curieux de savoir si ce principe a vaguement ete exploré, j'avoue ne pas avoir trouvé grand chose sur le sujet, la faute probablement a mon vocabulaire technique inexistant
@diabolo19x Месяц назад
@@crocodil.13 l'idée de "laisser le temps de réfléchir à son modèle" est notamment une idee pronee par Yann Lecun. Tu es donc un précurseur malgré toi :p
@diabolo19x Месяц назад
@@crocodil.13 je rebondis sur les propositions d'architecture, j'étais à ICML la semaine dernière, ça parlait pas mal de xLSTM (notamment car l'auteur était là aussi hein)
@dofeeeeee Месяц назад
@@diabolo19x Le créateur original du LSTM en plus X,). J'en ai pas mal entendu parler, mais j'ai pas lu le papier pour l'instant, c'est vraiment si bon que ça ? De souvenir il y a qu'un des deux modèles qui est paralélisable, je me trompe ?
@crocodil.13 Месяц назад
@@diabolo19x pardonne mon amateurisme, si je comprends bien, cela ressemble un peu aux ssm, mais avec une gestion differente de la memoire? (Qui ne s'appel pas comme ca dans les ssm). Par contre l'entrainement doit etre atroce 😂 surtout cette fonction de "suppression".
@alexandretl Месяц назад
@@diabolo19x woaw, ICML !
@diabolo19x Месяц назад
Super vidéo! Et merci d'aborder les faiblesses de Mamba, curieux de voir si cette archi peut être largement supérieure aux transformer sur des cas très spécifiques
@crocodil.13 Месяц назад
Il en parlait rapidement dans sa premiere video, je sais pas si ca sera un jour envisageable, mais pour l'analyse d'adn ca serait fou! Bon en nombre de token on est a des années lumieres, mais imagine pouvoir faire de la prediction de maladies, de caracteristiques physiologiques donc par exemple pour de l'optimisation therapeutique , etc.... ca serait magnifique, d'autant que la banque de données sur le sujet ne cesse de grandir ! Ou encore mieux des propositions de modifications a effectuées pour avoir tel ou tel caracteristiques (je parles ici plus de bacteries pour la production de biomedicaments que d'eugenisme hein)
@diabolo19x Месяц назад
@@crocodil.13 carrément d'accord sur les cas en bio, d'ailleurs j'ai l'impression que les très longues séquences comme l'ADN sont les rares cas où Mamba prend un peu.
@crocodil.13 Месяц назад
@@diabolo19x de toute maniere on est au debut de "l'ia qui marche vraiment", donc les applications vont fleurie dans tout les sens dans les années a venir! Rien a voir mais exemple vraiment sympa, le chef de service de radio de mon CHU nous expliquait que de nouvelles generations de scanners, moins irradiants et avec une resolution de 50 ou 100 microns etaient en développement. A ce niveau ca deviens presque de l'histologie, de l'anapathologie radiologique, alors analyser ca ca mettrais super super longtemps a un humain. L'idée derrière tout ca etait aussi la reponse a "l'ia va remplacer les radiologues", lui etait plus en mode "mais heureusement que l'ia de developpe, sinon on ne pourrait pas utiliser ces technologie la"
@alexandretl Месяц назад
Merci! Oui comme le dit @crocodil.13 c'est surtout surtout la longueur du contexte qu'il peut se démarquer. J'avais aussi vu dans une étude une expérience où Mamba est bien meilleur que le Transforme lorsqu'on le perturbe avec des entrées "bidons" (on lui fait faire du in-context learning mais en plus des exemples utiles à comprendre la tâche, on ajoute des exemples totalement inutiles). Je viens de retrouve l'article si jamais : arxiv.org/abs/2402.04248 (page 8/9)
@crocodil.13 Месяц назад
@@alexandretl top merci! Je me lis ca ce soir apres le travail. En effet dans ce contexte ca paraît avantageux car comme vous le savez surement une tres tres large majorité de l'adn ne sert a "rien" (en réalité pas a rien mais pas directement la production de proteines). Pour étoffer ce que je disais plus haut, l'adn humain c'est 3 000 milliards de paire de bases donc au pif je dirais au minimum 500 milliards de token (ca parrait pas aberant en tout cas)
@diabolo19x Месяц назад
Et hop un petit coup de pouce pour l'algorithme
@Gustavoooooooo Месяц назад
9:09 🇧🇷
@samueldeom Месяц назад
Merci pour cette vidéo
@GalthUbu Месяц назад
merci pour cette vidéo très intéressante :)
@Clement_Samp Месяц назад
Super vidéo. Enfin du détail en français
@alexandretl Месяц назад
Merci! Oui c'est assez pauvre en français sur YT et internet (à part les tutos classiques genre MNIST ou désuets comme tensorflow)
@crocodil.13 Месяц назад
Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot
@clementp772 Месяц назад
Merci c'est tellement plus clair. Je ne trouve pas la vidéo annoncée à la fin sur le positional encoding ? (en passant : un gros +1 sur la demande sur les ViT !)
@alexandretl Месяц назад
Merci! Oui je ne l'ai pas encore sortie, mais c'est dans la liste des prochaines vidéos! Aussi ViT ahah (celle-là sortira surement un peu plus tard)
@Yukiche368 Месяц назад
Vraiment super vidéo! Très intéressant, très bien tourné et très clair! J'attends les prochaines vidéos avec impatience!
@alexandretl Месяц назад
Ca fait super plaisir merci !
@PierreCizer Месяц назад
Super interessant !
@alexandretl Месяц назад
Merci Pierre-C !
@redone7696 Месяц назад
Super vidéo, très intéressante. Est-ce que tu as prévu de faire un jour, une vidéo explicative sur la méthode PEFT LoRa j’ai remarqué qu’il n’y avait aucune vidéo francophone qui parlait de ça alors que c’est pourtant une avancée majeure est très utilisée actuellement.
@alexandretl Месяц назад
Merci! Oui j'avais commencé à travailler dessus, c'est prévu
@FredEric-w2k Месяц назад
Je n'ai jamais laissé un commentaire sous une vidéo mais la je le fais car c'est un p***** de travail de vulgarisation!!! J'espère que tu vas continuer encore longtemps car tu réussi AVEC BRIO à bien expliquer les concepts pour des novices comme moi; Gros pouce bleu et j'ai vraiment hâte d'en apprendre encore et encore.
@alexandretl Месяц назад
Merci beaucoup pour ton commentaire ça fait plaisir et c'est très encourageant!
@arkazix4304 Месяц назад
Excellente vulgarisation ! Et juste par curiosité, avec quoi sont faites les animations/éléments présents dans la vidéo ?
@alexandretl Месяц назад
Merci! Tout a été fait avec Keynote
@alexandretl Месяц назад
Alors, arrivez-vous à discerner en vrai et faux nom de commune ? >> alxndrtl.github.io/communes/

Alexandre TL

Видео

Комментарии