Mamba : bien parti pour détrôner le Transformer ? Le bilan

Поделиться
HTML-код
  • Опубликовано: 9 сен 2024

Комментарии • 37

  • @diabolo19x
    @diabolo19x Месяц назад +8

    Et hop un petit coup de pouce pour l'algorithme

  • @eliottvalette2453
    @eliottvalette2453 Месяц назад

    Très clair merci

  • @dofeeeeee
    @dofeeeeee Месяц назад +1

    Merci beaucoup pour toutes tes vidéo !! Ta 1ere m'a déjà était super utile pour mon implémentation sur Burn, maintenant je vais faire la maj et j'ai quelques nouvelles idées X,)

  • @diabolo19x
    @diabolo19x Месяц назад +2

    Super vidéo! Et merci d'aborder les faiblesses de Mamba, curieux de voir si cette archi peut être largement supérieure aux transformer sur des cas très spécifiques

    • @crocodil.13
      @crocodil.13 Месяц назад +1

      Il en parlait rapidement dans sa premiere video, je sais pas si ca sera un jour envisageable, mais pour l'analyse d'adn ca serait fou! Bon en nombre de token on est a des années lumieres, mais imagine pouvoir faire de la prediction de maladies, de caracteristiques physiologiques donc par exemple pour de l'optimisation therapeutique , etc.... ca serait magnifique, d'autant que la banque de données sur le sujet ne cesse de grandir ! Ou encore mieux des propositions de modifications a effectuées pour avoir tel ou tel caracteristiques (je parles ici plus de bacteries pour la production de biomedicaments que d'eugenisme hein)

    • @diabolo19x
      @diabolo19x Месяц назад +1

      @@crocodil.13 carrément d'accord sur les cas en bio, d'ailleurs j'ai l'impression que les très longues séquences comme l'ADN sont les rares cas où Mamba prend un peu.

    • @crocodil.13
      @crocodil.13 Месяц назад

      @@diabolo19x de toute maniere on est au debut de "l'ia qui marche vraiment", donc les applications vont fleurie dans tout les sens dans les années a venir!
      Rien a voir mais exemple vraiment sympa, le chef de service de radio de mon CHU nous expliquait que de nouvelles generations de scanners, moins irradiants et avec une resolution de 50 ou 100 microns etaient en développement. A ce niveau ca deviens presque de l'histologie, de l'anapathologie radiologique, alors analyser ca ca mettrais super super longtemps a un humain. L'idée derrière tout ca etait aussi la reponse a "l'ia va remplacer les radiologues", lui etait plus en mode "mais heureusement que l'ia de developpe, sinon on ne pourrait pas utiliser ces technologie la"

    • @alexandretl
      @alexandretl  Месяц назад +2

      Merci! Oui comme le dit @crocodil.13 c'est surtout surtout la longueur du contexte qu'il peut se démarquer. J'avais aussi vu dans une étude une expérience où Mamba est bien meilleur que le Transforme lorsqu'on le perturbe avec des entrées "bidons" (on lui fait faire du in-context learning mais en plus des exemples utiles à comprendre la tâche, on ajoute des exemples totalement inutiles). Je viens de retrouve l'article si jamais : arxiv.org/abs/2402.04248 (page 8/9)

    • @crocodil.13
      @crocodil.13 Месяц назад +1

      @@alexandretl top merci! Je me lis ca ce soir apres le travail. En effet dans ce contexte ca paraît avantageux car comme vous le savez surement une tres tres large majorité de l'adn ne sert a "rien" (en réalité pas a rien mais pas directement la production de proteines).
      Pour étoffer ce que je disais plus haut, l'adn humain c'est 3 000 milliards de paire de bases donc au pif je dirais au minimum 500 milliards de token (ca parrait pas aberant en tout cas)

  • @raiden631
    @raiden631 Месяц назад

    Vidéo très visuelle et super intéressante, merci!

  • @crocodil.13
    @crocodil.13 Месяц назад +1

    Je serais ravis d'une petite video qui fait un tour d'horizon des differentes autres architechtures dont vous parlez! J'avoue a avoir du mal a imaginer autant de facon de faire, comme votre petit shema le laisser deviner😍
    Pour la petite histoire, ya quelques annés j'avais tenté un truc farfelu a souhait, un espece de bouillit de neurone (avec des boucles l'infinit), et une methode de récompense assez foireuse basée sur la frequence d'activation, l'activation la plus récente, la distance par rapport a la sortie et une petite memorisation des chemins empruntés... je voulais que le modele puisse continuer tourner dans le vide en produisant ou non des sorties qu'il y ai entrée ou non, un peu comme si il reflechissait le temps que il le souhaite avant de repondre .... eh bien je me suis rendu compte que j'aurais du faire des etudes dans le sujet a la place de réinventer la roue, au final ca a donné un generateur de nombre aléatoires infernal xD
    Evidament j'etait plus jeune et je ne me rendais pas compte que c'etait pas si simple, mais je serais curieux de savoir si ce principe a vaguement ete exploré, j'avoue ne pas avoir trouvé grand chose sur le sujet, la faute probablement a mon vocabulaire technique inexistant

    • @diabolo19x
      @diabolo19x Месяц назад +1

      @@crocodil.13 l'idée de "laisser le temps de réfléchir à son modèle" est notamment une idee pronee par Yann Lecun. Tu es donc un précurseur malgré toi :p

    • @diabolo19x
      @diabolo19x Месяц назад +1

      @@crocodil.13 je rebondis sur les propositions d'architecture, j'étais à ICML la semaine dernière, ça parlait pas mal de xLSTM (notamment car l'auteur était là aussi hein)

    • @dofeeeeee
      @dofeeeeee Месяц назад +1

      @@diabolo19x Le créateur original du LSTM en plus X,). J'en ai pas mal entendu parler, mais j'ai pas lu le papier pour l'instant, c'est vraiment si bon que ça ? De souvenir il y a qu'un des deux modèles qui est paralélisable, je me trompe ?

    • @crocodil.13
      @crocodil.13 Месяц назад

      @@diabolo19x pardonne mon amateurisme, si je comprends bien, cela ressemble un peu aux ssm, mais avec une gestion differente de la memoire? (Qui ne s'appel pas comme ca dans les ssm). Par contre l'entrainement doit etre atroce 😂 surtout cette fonction de "suppression".

    • @alexandretl
      @alexandretl  Месяц назад +1

      @@diabolo19x woaw, ICML !

  • @christiantheophanegasore3786
    @christiantheophanegasore3786 Месяц назад

    Numba la combinaison de numba et Numpy c'est cool pour la vision par ordinateur!

  • @eliefrossard
    @eliefrossard Месяц назад

    Combiner les deux, c'est souvent un principe de base ! C'est ouf que l'attention ne serve plus qu'à 8% des parametres sur le modèle hybride d'ailleurs. Ca ma rappelle comment les modèles comme midjourney sont apparus, en combinant les LLM avec les modèles de traitement de l'image pour aboutir à un prompt qui génère des images qui existent pas :D

  • @nicolasdevaux734
    @nicolasdevaux734 Месяц назад

    vidéo très intéressante. t'as oublié le xlstm qui est une bonne alternative aussi ^^.

    • @alexandretl
      @alexandretl  Месяц назад

      Oui en effet j'ai oublié de le mettre à la fin

  • @maloukemallouke9735
    @maloukemallouke9735 Месяц назад

    Merci pour les vidéos,
    je voulais te demander de faire une vidéo spéciale sur le traitement du facteur de temps dans les transformer comment il garde ne mémoire les informatisations par rapport a une série temporelle de valeur numérique comme la météo par exemple?

    • @alexandretl
      @alexandretl  Месяц назад +1

      Si c'est une vidéo sur les positional embeddings c'est prévu que je la fasse. C'est ce qui permet au transformer de prendre en compte l'ordre des valeurs d'une séquence

    • @maloukemallouke9735
      @maloukemallouke9735 Месяц назад

      @@alexandretl mille mercis mais le facteur que je ne visualise pas dans les Transformer c est le "Temps" l évolution ce n est pas claire pour moi (peut être pour d'autres aussi) et la question de mémoire mais je veux être spécifique pour des traitement de données pas de texte (comme les régression pour donner une image)

  • @noahsarcana
    @noahsarcana Месяц назад

    Il y a quand même certains signes qui ne trompent pas.. Je ne vais peut être pas acheter la dernière Nviva tout compte fait

  • @MsBowner
    @MsBowner Месяц назад +1

    Tu as la même voix que dirty biology ....

    • @alexandretl
      @alexandretl  Месяц назад

      C'est la deuxième fois que je reçois ce commentaire ahah

    • @MsBowner
      @MsBowner Месяц назад

      @@alexandretl Non, mais c'est fou, tu as la même intonation, la même voix, etc Bon, avoue-nous que c'est toi Léo derrière cette chaine XD

    • @alexandretl
      @alexandretl  Месяц назад

      @@MsBowner non je te l'assure x)

  • @Zoragna
    @Zoragna Месяц назад

    Ils ont sérieusement appelé un truc de ML "vim" ? sans réfléchir ? Vraiment les notebooks jupyter ça ravage le cerveau

  • @patdesse6693
    @patdesse6693 Месяц назад

    Il faut beaucoup d'intelligence humaine pour créer un peu d'intelligence artificielle 😅

    • @alexandretl
      @alexandretl  Месяц назад +1

      Et oui, et des centaines de millions de $$ aussi (pour l'instant)

  • @cainabel2553
    @cainabel2553 Месяц назад

    Pq sphère? C'est cylindre hi hi hi

    • @alexandretl
      @alexandretl  Месяц назад +1

      Les deux sont possibles, même si le cylindre est plus simple :)