Comment extraire les données d'un site web pour en faire un Assistant IA

Поделиться
HTML-код
  • Опубликовано: 15 сен 2024
  • Dans cette vidéo, je vous explique comment installer GPT Crawler afin de récupérer l'ensemble du contenu d'un site web pour ensuite l'utiliser comme base de connaissance dans un Assistant ChatGPT.
    ★ POUR SOUTENIR LA CHAINE ★
    Venez voir ce que je vous propose ici : / korben
    ★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★
    Je fais également du live stream sur : / korbenfr
    ⚑ S'ABONNER A LA CHAINE ⚑
    Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via www.youtube.com...
    ★★★ RETROUVEZ-MOI AILLEURS ★★★
    Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
    Mon site : korben.info
    Pour s'abonner au podcast : paralleles.org
    Twitter : / korben
    Instagram : / korben00
    TikTok : / korbeninfo
    Facebook : / manueldorne
    La chaine RUclips Webosaures : / @webosaures
    ✔ Liens mentionnés dans la vidéo ✔
    github.com/Bui...
    chat.openai.com
    Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
    Faites attention à vous
    #Korben

Комментарии • 36

  • @renatoo618
    @renatoo618 7 месяцев назад

    Merci, toujours enrichissant, je vais regarder ça de plus près comme chacune de vos Vidéos, 👍🤝

  • @TheBoitte
    @TheBoitte 8 месяцев назад +1

    Bonjour. La ligne merci beaucoup pour la vidéo. C’est une bonne astuce. Je testerai. Bonne continuation

    • @korben
      @korben  8 месяцев назад +1

      Avec plaisir

  • @slaunes
    @slaunes 8 месяцев назад +5

    Le même chabot sur des fichiers pdf ce serait top

    • @hashtag.easy.compute
      @hashtag.easy.compute 8 месяцев назад

      Utilises obsydian ( logiciel ) avec le plugin smart connexion... C'est magique

    • @viga1251
      @viga1251 2 месяца назад +1

      Salut, oui ce bot fonctionne bien de mon côté mais il ne traite pas les PDF, il y a t il une astuce ?

  • @PatriceL584
    @PatriceL584 8 месяцев назад

    Concis, efficace, Bravo ;)

  • @JMTchongMbami
    @JMTchongMbami 8 месяцев назад +3

    Merci beaucoup. Est ce qu'il y a aussi simple comme procédure pour faire la même chose avec un LLM en local svp ? Je connais assez peu et j'ai un peu cherché mais je n'arrive pas a faire comprendre la doc à mon IA.

  • @danielstreng
    @danielstreng 8 месяцев назад

    Ça va me servir. Merci !

  • @lemonsieurxav
    @lemonsieurxav 8 месяцев назад +1

    Merci chef des internets

    • @elfo1799
      @elfo1799 6 месяцев назад

      Lui ? 😂 j crois pas non 😅

    • @lemonsieurxav
      @lemonsieurxav 6 месяцев назад

      excuse moi mais t'es qui ? le mec de la vidéo ça fait 20 ans qu'il est dans le milieu de la tech, il a sorti des livres, il a l'une des plus longue longévité en etant solo, et toi ?@@elfo1799

  • @pascalboeuf1354
    @pascalboeuf1354 8 месяцев назад +1

    Merci beaucoup pour le tuto. Je cherche le moyen de faire la meme chose à partir d'un documentation qui se trouve dans des pdf. Une idée ? Merci.

  • @upinthesky63
    @upinthesky63 6 месяцев назад

    Merci Korben pour cette vidéo sur ce sujet intéressant de création d’un fichier regroupant les data d’un site web. Existe t’il d’autres outils du même genre? Malheureusement pour moi, il ne fonctionne pas sur mon mac, à travers mon terminal, l’installation est apparemment Ok, le config.ts est rempli avec le site test, le port est Ok, j’ai longuement discuté avec chatGPT pour trouver la porte de sortie, mais c’est un raté pour le moment. Lors du lancement du crawl npm start, il se lance mais n’arrive pas à récupérer les data (failed), il finit par "found 0 files to combine". J’avais changé le port 3000 en 5000 dans un .env mais ce n’est apparemment pas ça le problème. Mon coupe-feu est désactivé. J’ai aussi testé de changer le nom de sortie en .html au lieu de json. Un peu dégoûté 😅

  • @dossousem9732
    @dossousem9732 8 месяцев назад

    Merci

  • @viga1251
    @viga1251 2 месяца назад

    Salut, et merci Korben pour ça, oui ce bot fonctionne très bien de mon côté mais il ne traite pas les PDF, il y a t il une astuce ?

  • @Venden_IX
    @Venden_IX 8 месяцев назад +1

    J'ai l'impression que ça ne marche pas pour tous les sites, comme ceux qui sont écrit via des scripts car j'try de scraper un site et j'ai bien les bonnes urls et ça me donne pas le résultat attendu

  • @famillec.627
    @famillec.627 6 месяцев назад

    Bonjour, Quelqu'un sait pourquoi je ne vois pas le menu explore dans le menu de gauche ? je suis pourtant bien connecté. Merci

  • @TheWaker06
    @TheWaker06 8 месяцев назад

    Salut Korben
    J'ai des erreurs sur l'upload des deux premiers json, le chat-bot n'en veut pas. Bizarrement il prend le troisième et dernier, mais ce n'est pas une question de taille, puisque le fichier peu faire 25Mo au maximum. Je vais voir avec le createur du crawler.

  • @fredericdefeyter2999
    @fredericdefeyter2999 8 месяцев назад +1

    BOn j'ai tenté avec un site web de 1000 pages mais il ne parvient pas à générer une réponse. J'obtiens erreur sur erreur. Est-ce trop d'infos pour chatgpt?

    • @myning-tradecrypto6752
      @myning-tradecrypto6752 День назад +1

      Non cela depend de plusieurs chose , de ton fine tuned ou du pre-entrainement si tu as commencé à zéro , pour formé un model pre-existant il te faut énormément de data, d'une puissance de calcul , puis des bon paramètres de ton fined pour éviter un overfitting (sur apprentissage) et aussi d'un prompting / RAG adéquate a ton projet. Les model gpt2 même les plus gros ne sont pas cohérent, il faut passer sur des open source comme GPT-J etc mais cela demande a une énorme quantité de donné par rapport a la taille du model

  • @nicolas4409
    @nicolas4409 8 месяцев назад +1

    Hate de voir comment crawler s en sort sur des sites plus complexes et s il peut récupérer des données dans un espace authentifié

  • @Killian983
    @Killian983 4 месяца назад

    Bonjour, je cherche à créer mon propre gpt mais je n'ai aucune connaissance en code. Donc j'ai regardé votre vidéo en comprenant dans les grandes lignes ce que vous faisiez mais n'ai aucune idée de par où commencer. Je dois me former sur python d'abord ? De quelles connaissances j'ai besoin au départ pour que cette vidéo me soit compréhensible ?
    Merci de votre aide!

    • @myning-tradecrypto6752
      @myning-tradecrypto6752 День назад

      Faire son propre model pre-entrainé demande énormément de temp et de data car tu reprends tout au début , je suis entrain de faire mon propre model sur un système en domotique . Évidemment il te faut connaître python , puis le fonctionnement du LLM de gpt puis créer un plan pour ton model , puis collecter toute les données (data) puis pre-entrainé ton model pour créé un model gpt que tu pourra utiliser pour ton projet (chat etc ) que tu pourra améliorer prompting / fine-tuned/ RAG , bonne chance ^^ d'habitude les gens prennent un model pre-existant de gpt et le fine-tuned mais cela demande aussi énormément de temp , de ressources, et de puissance de calcul

  • @dossousem9732
    @dossousem9732 8 месяцев назад

    Merci pour cette vidéo, es qu'on peux rendre disponible ce chat Bot a des utilisateurs qui ne sont pas premium sur chatGPT?
    Dans une application tierce ou n'importe où autre que chatGPT ?

    • @myning-tradecrypto6752
      @myning-tradecrypto6752 День назад

      Les gpt sont disponibles sur chat gpt gratuitement, et non cela fonctionne avec l'API de openai donc il peut être utilisable que sur chat gpt, pour l'avoir en local seul gpt 2 es disponible en license distribution

  • @Lowdok974
    @Lowdok974 7 месяцев назад

    Salut... est-ce que c'est le même principe que scraper et peut crawler n'importe quel site? Merci et Bne vidéo

    • @myning-tradecrypto6752
      @myning-tradecrypto6752 День назад

      Oui c'est a peu près pareil, un crawler es un robot d'indexation (gpt crawler , Googlebot , il y as n'a plein ) alors que le scraper es un extracteur de données (pour des extractions de données plus précises) . Le scaper doit être accepté sur les conditions du site (il peut être illégal de scraper )

  • @nanstv
    @nanstv 6 месяцев назад

    Cool, mais comment tu fais un chatbot basé sur ça via l api openai ?

    • @myning-tradecrypto6752
      @myning-tradecrypto6752 День назад

      Ta question n'est pas bonne ! Si tu utilises l'API de openai c'est que tu utilises deja un model gpt 3 / 4 / codex etc donc tu aura plus qu'à le fine-tuned pour l'améliorer dans ton projet . Un chatbot ne fonctionne pas comme ça (génération de texte)

  • @Venden_IX
    @Venden_IX 8 месяцев назад

    Peut-on ajouter des match ? Ou faut relancer le script avec un autre match ?

  • @chrisbarbaz5287
    @chrisbarbaz5287 8 месяцев назад

    C'est quoi cette obsession pour l'IA ???? Cela fait 2 jours que je demande une image simpliste à une IA (j'en ai même essayé une autre !). L'image est belle, mais ce n'est pas ce qu'on lui demande, c'est bête à manger du foin !!!!

    • @ludovicasebashi5215
      @ludovicasebashi5215 8 месяцев назад

      Il faut etre précis exagérément dans le prompt si on veut que ca colle avec ce qu’on s’imagine

    • @chrisbarbaz5287
      @chrisbarbaz5287 8 месяцев назад

      @@ludovicasebashi5215 plus on est précis, pire ça est !! Même le signe de l'intégrale est difficile à avoir, même en mettant tout en anglais ! ça fait un peu ce que ça veut, sans qu'on comprenne pourquoi, et on voudrait faire piloter des avions aux IA ! Bonne chance !

    • @myning-tradecrypto6752
      @myning-tradecrypto6752 День назад

      Lol t'enerve pas mdrr , c'est normal tout les générateur d'images ne se valent pas , cella dépend a quel ia tu demande ? Si voir quel es son model de generateur si c'est du BigGan 2 , clip+vqgan , DALL-E ?