Ces IA qui s'entraînent dans leur imagination

Alexandre TL

Просмотров 4,5 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 9 сен 2024
Dans cette vidéo, on s'intéresse à une famille d'algorithmes qui possèdent une modélisation, une simulation du monde qui les entoure : que ce soit sur Minecraft ou sur la route, l'algorithme arrive à recréer l'environnement dans lequel il évolue. Cette reproduction s'effectue dans un état "compressé" : par exemple pour Minecraft, au lieu de recréer des images, il travaille avec des états qui décrivent l'état du jeu : il y a un bloc de diamant, j'ai une pioche en fer, etc.
Wordmodels (excellent article de 2018 qui pose les bases des modèles monde) : worldmodels.gi...
DreamerV3 : danijar.com/pr...
GAIA-1 : wayve.ai/think...
DayDreamer (les robots) : danijar.com/pr...
0:00: La conduite et Minecraft
1:10 : L'autoencodeur
2:42 : Exploration de l'espace latent
3:25 : Ajout d'une mémoire
5:10 : Ajout des actions
5:37 : Application : la conduite
7:43 : Application : Minecraft
8:03 : Apprentissage par récompenses
10:29 : Apprentissage en tandem
11:47 : Conclusion
Rejoindre la communauté Machine Learning FR : / discord
Me suivre :
Github : github.com/alx...
Twitter : / alexandretl2

Комментарии • 33

@alexandretl 10 месяцев назад ⁺⁵
J'espère que la vidéo vous a plu! N'hésitez pas à aimer ou à réagir dans les commentaires.
Quelques précisions plus techniques non abordées :
-ces méthodes, appliquées à l'apprentissage par renforcement, sont relativement récentes, et ont été introduites en 2018, voir : worldmodels.github.io/ (dont la vidéo s'inspire)
-GAIA-1, comme sous-entendu dans la vidéo, n'a pas effectué d'entraînement de politique à partir du modèle monde, contrairement à DreamerV3. En fait, en imitant les actions des humains, la politique est déjà "optimale" (si on considère que l'humain conduit de façon optimale...). Le but de GAIA-1 est de produire, en masse et de façon peu chère, des vidéos de conduite, pour plus tard entraîner des voitures autonomes. Il n'est pas clair s'ils vont réellement se servir du modèle monde autre que pour cette génération de vidéo, donc.
-Toujours pour GAIA-1, la partie "décodeur" qui produit les vidéos vues dans la vidéo est plus complexe que celle d'une simple autoencodeur, est fait intervenir un algorithme de diffusion (même principe que les modèles comme DALLE, StableDiffusion, Midjourney, ...)
-L'exploit qu'a fait DeepMind avec DreamerV3 sur Minecraft est d'autant plus impressionnant qu'ils n'ont eu pas eu besoin de relancer plusieurs fois l'entraînement pour sélectionner les paramètres de l'algorithme qui fait que tout va bien. C'est une des grandes faiblesses de l'apprentissage par renforcement : il faut souvent trouver la combinaison parfaite de paramètres, et si on l'a pas, l'entraînement est instable voir impossible. DreamerV3 est robuste à cela.
@crocodil.13 Месяц назад
Salut, si tu lis ce commentaire, je ne comprends pas tres bien comment le modele determine si une récompense doit etre donnée dans son "imagination". Dans une interaction réelle avec le jeu, c'est ce dernier qui fournit l'info, mais dans son imagination? Je ne sais pas si c'est clair... autrement dit, comment determiner une "bonne action " dans un espace qui reste abstrait?
Si je comprends bien, le model est capable de lui meme de determiner une bonne action via son propre "vecu" dans la simulation? C'est fou
@crocodil.13 Месяц назад
Et encore une chose, a quel moment le robot "immagine"? Il lance une sequence entre chaque decision réelle? Ca rends le nombre de recurence pour chaque action réelle enome non?
@crocodil.13 Месяц назад
Je comprends que mes questions sont peut etre un peu simpletes pour moi qui n'est pas expert, je n'arrive pas a trouver le papier qui explique bien cela si vous pouvez m'aiguiller !
@alexandretl Месяц назад ⁺¹
@@crocodil.13 oui en fait on entraîne le modèle "monde" à reproduire les récompenses vues dans la réalité (en plus des autres choses qu'on lui demande, comme prédire le prochain état compressé). Cela lui permet donc comme tu le dis de savoir quelle "bonne action" prendre.
@alexandretl Месяц назад ⁺¹
@@crocodil.13 Oui c'est comme ça que l'algorithme de Dreamer est présenté : à chaque décision réelle observée, on lance une imagination à partir de celle-ci. En pratique ce qui est fait c'est 1) une période de récolte dans la réalité (une séquence d'un coup) 2) pour chaque état rencontré dans la réalité, lancer une imagination
Donc oui ça fait beaucoup mais le modèle monde est assez gourmand en données
@quiche1936 10 месяцев назад ⁺⁸
Ça m'a toujours rendu fou le nombre de petits youtubeurs très quali mais que personne ne connait
@crocodil.13 6 месяцев назад
Ils sont durs à trouver mais quand on en trouve un on ne le lâche plus
@JetyWorld 10 месяцев назад ⁺²
Vidéo super intéressante, j'espère que tu en feras d'autres sur ce sujet passionnant. Continue comme ça
@alexandretl 10 месяцев назад ⁺¹
Merci beaucoup
@crocodil.13 Месяц назад
Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot
@tetuaoro 10 месяцев назад
Merci pour cette vidéo.
@TheRemiRODRIGUES 10 месяцев назад
Super intéressant !
Merci pour la vidéo !
@HerosPlaying 10 месяцев назад
Vidéo intérêssante, bonne élocution mais manque de musique de fond pour que ce soir plus agréable je trouve. Continues !
@alexandretl 10 месяцев назад
Merci beaucoup ! Ok c'est noté pour le retour
@jgcb0071 10 месяцев назад
Très très intéressant merci !
@LatelierdArmand 10 месяцев назад ⁺¹
banger :)
@shaihalimi9102 10 месяцев назад
Fascinant
@Redro_ 10 месяцев назад
Incroyable vidéo ! (quelle est ta chaine YT plus technique ?)
@alexandretl 10 месяцев назад ⁺¹
Merci! C'est celle-ci (il y a déjà 3 séries de vidéos techniques, d'autres arrivent)
@virolengin1841 9 месяцев назад
Whaou
@zozodejante8350 10 месяцев назад
Super video incroyable où est ce que tu apprends tout ça ?
@alexandretl 10 месяцев назад
Un grand merci! Tout vient d'internet, surtout des blog posts (anglais)
@bause6182 6 месяцев назад
Pourquoi on utilise pas ce principe pour faire un générateur de vidéos ?
@alexandretl 6 месяцев назад ⁺¹
pour générer des vidéos on n'a très rarement accès aux "actions" prises lorsque la vidéo a été tournée, le cas de Wayve est très particulier puisque c'était des véhicules équipés de capteurs. on ne peut pas déterminer automatiquement les actions prises (en fait, il y a une semaine, un papier est sorti qui faisait justement ça, déterminer les actions automatiquement, ça s'appelle Genie par DeepMind c'est assez pointu et encore limité)
@bause6182 5 месяцев назад
@@alexandretlMerci pour l'explication , c'était interessant je vais consulter le papier de deepmind
@blabla199498 10 месяцев назад
hello cette ia pourrait jouer avec d'autres joueurs?
@alexandretl 10 месяцев назад ⁺¹
Pas telle quelle puisqu'elle n'a jamais vu d'autres joueurs dans le jeu, mais si on lui fournissait du gameplay où d'autres joueurs se trouvent, alors oui.

Следующие

Автовоспроизведение

Pourquoi ChatGPT connait vos attentes et préférences