Je vole les sous-titres de Youtube avec du code - Webscraping

Поделиться
HTML-код
  • Опубликовано: 17 окт 2024

Комментарии • 8

  • @PierreMiniggio
    @PierreMiniggio  2 года назад +3

    Toujours plus de webscraping ! Mouhahaha !
    N'hésitez pas à laisser un pouce bleu et un commentaire pour l'ago', merci ! ♥
    Le logiciel de montage vidéo que j'ai codé : ruclips.net/video/8yvXesjalcg/видео.html
    Comment H🅰cker un Captcha : ruclips.net/video/sgr92n5EGyo/видео.html
    Snaptik API : github.com/pierreminiggio/snaptik-api
    Comment automatiser une chaîne RUclips : ruclips.net/video/xCLLwW_IR1A/видео.html
    Le code de la vidéo : github.com/pierreminiggio/downsub-api

  • @julesdhaussy5108
    @julesdhaussy5108 2 года назад +1

    Hello ! Merci pour tes vidéos c'est super intéressant. Je me demande dans celle ci, au moment où tu cliques sur un bouton, j'imagine que ça lance une requête http. Tu as essayé de lancer directement les requêtes http via curl ou autre ? Est-ce que ce serait pas plus simple ici ? Merci à toi.

    • @PierreMiniggio
      @PierreMiniggio  2 года назад +1

      Au final, c'est ce que je fais, car je récupère le lien, que j’appellerai ensuite via un curl quand je ferai l'API qui appellera l'action (j'en ai parlé à 6:12).
      Mais par contre, c'est dans le processus de récupération de cette URL que je clique sur le bouton :
      Au moment où je clique sur le bouton, y'a un listener JavaScript sur le site de downsub qui oui envoie une requête en GET, et l'URL de cette requête en GET est ce que je récupère avec mon listener sur les requêtes qui rempli le lien de sous-titres pour chaque langue.
      Tu peux voir la tête du lien au moment où je l'affiche dans la console à 6:06. Théoriquement, je pourrai essayer de trouver comment reconstruire le bon lien avec les bonnes infos et me passer du clic et les retourner directement, mais vu la complexité du lien (plusieurs paramètres GET, dont un encodé en Base 64, j'ai même pas pris le temps de jouer un base64decode dessus voir ce qu'il y avait dedans), j'ai pas l'impression qu'utiliser du temps pour le reconstruire vaille les économies en performance et en temps en me dispensant du clic et du téléchargement.
      Et ça me permet aussi que si le site venait à changer la façon dont ils construisent leurs liens de téléchargement, y'a de grandes chances qu'il toucheront à leur construction du lien dans le listener de clic aussi.
      Imaginons j'ai pris le temps de reconstruire l'URL pour me dispenser du clic, une mise à jour du site qui changerait l'url casser mon code, alors qu'en me basant sur le lien que le site m'envoie directement, y'a potentiellement moins de chance que mon code cassera sur ce point.
      Généralement quand je fais du scraping, j'essaie de faire des choses les plus stables possibles, même si c'est pas les plus performantes, car vu que les sites peuvent être mis à jour, le moins souvent j'ai à revenir sur mes anciens scripts, le mieux je me porte ! :D

    • @flosrn
      @flosrn 11 месяцев назад +1

      @@PierreMiniggio j'ai trouvé comment réccupérer les sous titres directement depuis un petit script node.js en faisant 3 requetes, au final pas bien compliqué ! Du coup c'est plus du scrapping mais en effet si les liens viennent à changer il faut adapter le code, mais pour mon cas d'usage ça ira très bien (automatisation de note Obsidian qui va venir résumer une video youtube)

    • @PierreMiniggio
      @PierreMiniggio  11 месяцев назад +2

      @@flosrn Cool ! 😁
      Globalement c'est mieux quand t'as même pas besoin de faire de scraping, car le moindre changement d'interface peut casser ton code quand tu fais du scraping.

  • @adopte1dev
    @adopte1dev 2 года назад +1

    Pas bête ! 🤔

  • @miajume6089
    @miajume6089 2 года назад +1

    pour youtube sur navigateur web desktop cliques sur les 3 petits points a coté de enregistrer et selectionne afficher la transcription et tu aura des sous titres

    • @PierreMiniggio
      @PierreMiniggio  2 года назад +2

      Yup ! Sauf que le but c'est de les récupérer automatiquement pour les traiter et les stocker.
      J'ai pensé à la possibilité de les scraper directement de RUclips, mais Google est un peu chiant avec les ReCaptcha, du coup pour ça que je préfère passer par un 3rd party qui aura pas autant de contraintes même si je mettais à télécharger beaucoup de sous-titres.