Ces IA qui s'entraînent dans leur imagination

Поделиться
HTML-код
  • Опубликовано: 9 сен 2024
  • Dans cette vidéo, on s'intéresse à une famille d'algorithmes qui possèdent une modélisation, une simulation du monde qui les entoure : que ce soit sur Minecraft ou sur la route, l'algorithme arrive à recréer l'environnement dans lequel il évolue. Cette reproduction s'effectue dans un état "compressé" : par exemple pour Minecraft, au lieu de recréer des images, il travaille avec des états qui décrivent l'état du jeu : il y a un bloc de diamant, j'ai une pioche en fer, etc.
    Wordmodels (excellent article de 2018 qui pose les bases des modèles monde) : worldmodels.gi...
    DreamerV3 : danijar.com/pr...
    GAIA-1 : wayve.ai/think...
    DayDreamer (les robots) : danijar.com/pr...
    0:00: La conduite et Minecraft
    1:10 : L'autoencodeur
    2:42 : Exploration de l'espace latent
    3:25 : Ajout d'une mémoire
    5:10 : Ajout des actions
    5:37 : Application : la conduite
    7:43 : Application : Minecraft
    8:03 : Apprentissage par récompenses
    10:29 : Apprentissage en tandem
    11:47 : Conclusion
    Rejoindre la communauté Machine Learning FR : / discord
    Me suivre :
    Github : github.com/alx...
    Twitter : / alexandretl2

Комментарии • 33

  • @alexandretl
    @alexandretl  10 месяцев назад +5

    J'espère que la vidéo vous a plu! N'hésitez pas à aimer ou à réagir dans les commentaires.
    Quelques précisions plus techniques non abordées :
    -ces méthodes, appliquées à l'apprentissage par renforcement, sont relativement récentes, et ont été introduites en 2018, voir : worldmodels.github.io/ (dont la vidéo s'inspire)
    -GAIA-1, comme sous-entendu dans la vidéo, n'a pas effectué d'entraînement de politique à partir du modèle monde, contrairement à DreamerV3. En fait, en imitant les actions des humains, la politique est déjà "optimale" (si on considère que l'humain conduit de façon optimale...). Le but de GAIA-1 est de produire, en masse et de façon peu chère, des vidéos de conduite, pour plus tard entraîner des voitures autonomes. Il n'est pas clair s'ils vont réellement se servir du modèle monde autre que pour cette génération de vidéo, donc.
    -Toujours pour GAIA-1, la partie "décodeur" qui produit les vidéos vues dans la vidéo est plus complexe que celle d'une simple autoencodeur, est fait intervenir un algorithme de diffusion (même principe que les modèles comme DALLE, StableDiffusion, Midjourney, ...)
    -L'exploit qu'a fait DeepMind avec DreamerV3 sur Minecraft est d'autant plus impressionnant qu'ils n'ont eu pas eu besoin de relancer plusieurs fois l'entraînement pour sélectionner les paramètres de l'algorithme qui fait que tout va bien. C'est une des grandes faiblesses de l'apprentissage par renforcement : il faut souvent trouver la combinaison parfaite de paramètres, et si on l'a pas, l'entraînement est instable voir impossible. DreamerV3 est robuste à cela.

    • @crocodil.13
      @crocodil.13 Месяц назад

      Salut, si tu lis ce commentaire, je ne comprends pas tres bien comment le modele determine si une récompense doit etre donnée dans son "imagination". Dans une interaction réelle avec le jeu, c'est ce dernier qui fournit l'info, mais dans son imagination? Je ne sais pas si c'est clair... autrement dit, comment determiner une "bonne action " dans un espace qui reste abstrait?
      Si je comprends bien, le model est capable de lui meme de determiner une bonne action via son propre "vecu" dans la simulation? C'est fou

    • @crocodil.13
      @crocodil.13 Месяц назад

      Et encore une chose, a quel moment le robot "immagine"? Il lance une sequence entre chaque decision réelle? Ca rends le nombre de recurence pour chaque action réelle enome non?

    • @crocodil.13
      @crocodil.13 Месяц назад

      Je comprends que mes questions sont peut etre un peu simpletes pour moi qui n'est pas expert, je n'arrive pas a trouver le papier qui explique bien cela si vous pouvez m'aiguiller !

    • @alexandretl
      @alexandretl  Месяц назад +1

      @@crocodil.13 oui en fait on entraîne le modèle "monde" à reproduire les récompenses vues dans la réalité (en plus des autres choses qu'on lui demande, comme prédire le prochain état compressé). Cela lui permet donc comme tu le dis de savoir quelle "bonne action" prendre.

    • @alexandretl
      @alexandretl  Месяц назад +1

      @@crocodil.13 Oui c'est comme ça que l'algorithme de Dreamer est présenté : à chaque décision réelle observée, on lance une imagination à partir de celle-ci. En pratique ce qui est fait c'est 1) une période de récolte dans la réalité (une séquence d'un coup) 2) pour chaque état rencontré dans la réalité, lancer une imagination
      Donc oui ça fait beaucoup mais le modèle monde est assez gourmand en données

  • @quiche1936
    @quiche1936 10 месяцев назад +8

    Ça m'a toujours rendu fou le nombre de petits youtubeurs très quali mais que personne ne connait

    • @crocodil.13
      @crocodil.13 6 месяцев назад

      Ils sont durs à trouver mais quand on en trouve un on ne le lâche plus

  • @JetyWorld
    @JetyWorld 10 месяцев назад +2

    Vidéo super intéressante, j'espère que tu en feras d'autres sur ce sujet passionnant. Continue comme ça

  • @crocodil.13
    @crocodil.13 Месяц назад

    Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot

  • @tetuaoro
    @tetuaoro 10 месяцев назад

    Merci pour cette vidéo.

  • @TheRemiRODRIGUES
    @TheRemiRODRIGUES 10 месяцев назад

    Super intéressant !
    Merci pour la vidéo !

  • @HerosPlaying
    @HerosPlaying 10 месяцев назад

    Vidéo intérêssante, bonne élocution mais manque de musique de fond pour que ce soir plus agréable je trouve. Continues !

    • @alexandretl
      @alexandretl  10 месяцев назад

      Merci beaucoup ! Ok c'est noté pour le retour

  • @jgcb0071
    @jgcb0071 10 месяцев назад

    Très très intéressant merci !

  • @LatelierdArmand
    @LatelierdArmand 10 месяцев назад +1

    banger :)

  • @shaihalimi9102
    @shaihalimi9102 10 месяцев назад

    Fascinant

  • @Redro_
    @Redro_ 10 месяцев назад

    Incroyable vidéo ! (quelle est ta chaine YT plus technique ?)

    • @alexandretl
      @alexandretl  10 месяцев назад +1

      Merci! C'est celle-ci (il y a déjà 3 séries de vidéos techniques, d'autres arrivent)

  • @virolengin1841
    @virolengin1841 9 месяцев назад

    Whaou

  • @zozodejante8350
    @zozodejante8350 10 месяцев назад

    Super video incroyable où est ce que tu apprends tout ça ?

    • @alexandretl
      @alexandretl  10 месяцев назад

      Un grand merci! Tout vient d'internet, surtout des blog posts (anglais)

  • @bause6182
    @bause6182 6 месяцев назад

    Pourquoi on utilise pas ce principe pour faire un générateur de vidéos ?

    • @alexandretl
      @alexandretl  6 месяцев назад +1

      pour générer des vidéos on n'a très rarement accès aux "actions" prises lorsque la vidéo a été tournée, le cas de Wayve est très particulier puisque c'était des véhicules équipés de capteurs. on ne peut pas déterminer automatiquement les actions prises (en fait, il y a une semaine, un papier est sorti qui faisait justement ça, déterminer les actions automatiquement, ça s'appelle Genie par DeepMind c'est assez pointu et encore limité)

    • @bause6182
      @bause6182 5 месяцев назад

      ​@@alexandretlMerci pour l'explication , c'était interessant je vais consulter le papier de deepmind

  • @blabla199498
    @blabla199498 10 месяцев назад

    hello cette ia pourrait jouer avec d'autres joueurs?

    • @alexandretl
      @alexandretl  10 месяцев назад +1

      Pas telle quelle puisqu'elle n'a jamais vu d'autres joueurs dans le jeu, mais si on lui fournissait du gameplay où d'autres joueurs se trouvent, alors oui.