Toujours plus de webscraping ! Mouhahaha ! N'hésitez pas à laisser un pouce bleu et un commentaire pour l'ago', merci ! ♥ Le logiciel de montage vidéo que j'ai codé : ruclips.net/video/8yvXesjalcg/видео.html Comment H🅰cker un Captcha : ruclips.net/video/sgr92n5EGyo/видео.html Snaptik API : github.com/pierreminiggio/snaptik-api Comment automatiser une chaîne RUclips : ruclips.net/video/xCLLwW_IR1A/видео.html Le code de la vidéo : github.com/pierreminiggio/downsub-api
Hello ! Merci pour tes vidéos c'est super intéressant. Je me demande dans celle ci, au moment où tu cliques sur un bouton, j'imagine que ça lance une requête http. Tu as essayé de lancer directement les requêtes http via curl ou autre ? Est-ce que ce serait pas plus simple ici ? Merci à toi.
Au final, c'est ce que je fais, car je récupère le lien, que j’appellerai ensuite via un curl quand je ferai l'API qui appellera l'action (j'en ai parlé à 6:12). Mais par contre, c'est dans le processus de récupération de cette URL que je clique sur le bouton : Au moment où je clique sur le bouton, y'a un listener JavaScript sur le site de downsub qui oui envoie une requête en GET, et l'URL de cette requête en GET est ce que je récupère avec mon listener sur les requêtes qui rempli le lien de sous-titres pour chaque langue. Tu peux voir la tête du lien au moment où je l'affiche dans la console à 6:06. Théoriquement, je pourrai essayer de trouver comment reconstruire le bon lien avec les bonnes infos et me passer du clic et les retourner directement, mais vu la complexité du lien (plusieurs paramètres GET, dont un encodé en Base 64, j'ai même pas pris le temps de jouer un base64decode dessus voir ce qu'il y avait dedans), j'ai pas l'impression qu'utiliser du temps pour le reconstruire vaille les économies en performance et en temps en me dispensant du clic et du téléchargement. Et ça me permet aussi que si le site venait à changer la façon dont ils construisent leurs liens de téléchargement, y'a de grandes chances qu'il toucheront à leur construction du lien dans le listener de clic aussi. Imaginons j'ai pris le temps de reconstruire l'URL pour me dispenser du clic, une mise à jour du site qui changerait l'url casser mon code, alors qu'en me basant sur le lien que le site m'envoie directement, y'a potentiellement moins de chance que mon code cassera sur ce point. Généralement quand je fais du scraping, j'essaie de faire des choses les plus stables possibles, même si c'est pas les plus performantes, car vu que les sites peuvent être mis à jour, le moins souvent j'ai à revenir sur mes anciens scripts, le mieux je me porte ! :D
@@PierreMiniggio j'ai trouvé comment réccupérer les sous titres directement depuis un petit script node.js en faisant 3 requetes, au final pas bien compliqué ! Du coup c'est plus du scrapping mais en effet si les liens viennent à changer il faut adapter le code, mais pour mon cas d'usage ça ira très bien (automatisation de note Obsidian qui va venir résumer une video youtube)
@@flosrn Cool ! 😁 Globalement c'est mieux quand t'as même pas besoin de faire de scraping, car le moindre changement d'interface peut casser ton code quand tu fais du scraping.
pour youtube sur navigateur web desktop cliques sur les 3 petits points a coté de enregistrer et selectionne afficher la transcription et tu aura des sous titres
Yup ! Sauf que le but c'est de les récupérer automatiquement pour les traiter et les stocker. J'ai pensé à la possibilité de les scraper directement de RUclips, mais Google est un peu chiant avec les ReCaptcha, du coup pour ça que je préfère passer par un 3rd party qui aura pas autant de contraintes même si je mettais à télécharger beaucoup de sous-titres.
Toujours plus de webscraping ! Mouhahaha !
N'hésitez pas à laisser un pouce bleu et un commentaire pour l'ago', merci ! ♥
Le logiciel de montage vidéo que j'ai codé : ruclips.net/video/8yvXesjalcg/видео.html
Comment H🅰cker un Captcha : ruclips.net/video/sgr92n5EGyo/видео.html
Snaptik API : github.com/pierreminiggio/snaptik-api
Comment automatiser une chaîne RUclips : ruclips.net/video/xCLLwW_IR1A/видео.html
Le code de la vidéo : github.com/pierreminiggio/downsub-api
Hello ! Merci pour tes vidéos c'est super intéressant. Je me demande dans celle ci, au moment où tu cliques sur un bouton, j'imagine que ça lance une requête http. Tu as essayé de lancer directement les requêtes http via curl ou autre ? Est-ce que ce serait pas plus simple ici ? Merci à toi.
Au final, c'est ce que je fais, car je récupère le lien, que j’appellerai ensuite via un curl quand je ferai l'API qui appellera l'action (j'en ai parlé à 6:12).
Mais par contre, c'est dans le processus de récupération de cette URL que je clique sur le bouton :
Au moment où je clique sur le bouton, y'a un listener JavaScript sur le site de downsub qui oui envoie une requête en GET, et l'URL de cette requête en GET est ce que je récupère avec mon listener sur les requêtes qui rempli le lien de sous-titres pour chaque langue.
Tu peux voir la tête du lien au moment où je l'affiche dans la console à 6:06. Théoriquement, je pourrai essayer de trouver comment reconstruire le bon lien avec les bonnes infos et me passer du clic et les retourner directement, mais vu la complexité du lien (plusieurs paramètres GET, dont un encodé en Base 64, j'ai même pas pris le temps de jouer un base64decode dessus voir ce qu'il y avait dedans), j'ai pas l'impression qu'utiliser du temps pour le reconstruire vaille les économies en performance et en temps en me dispensant du clic et du téléchargement.
Et ça me permet aussi que si le site venait à changer la façon dont ils construisent leurs liens de téléchargement, y'a de grandes chances qu'il toucheront à leur construction du lien dans le listener de clic aussi.
Imaginons j'ai pris le temps de reconstruire l'URL pour me dispenser du clic, une mise à jour du site qui changerait l'url casser mon code, alors qu'en me basant sur le lien que le site m'envoie directement, y'a potentiellement moins de chance que mon code cassera sur ce point.
Généralement quand je fais du scraping, j'essaie de faire des choses les plus stables possibles, même si c'est pas les plus performantes, car vu que les sites peuvent être mis à jour, le moins souvent j'ai à revenir sur mes anciens scripts, le mieux je me porte ! :D
@@PierreMiniggio j'ai trouvé comment réccupérer les sous titres directement depuis un petit script node.js en faisant 3 requetes, au final pas bien compliqué ! Du coup c'est plus du scrapping mais en effet si les liens viennent à changer il faut adapter le code, mais pour mon cas d'usage ça ira très bien (automatisation de note Obsidian qui va venir résumer une video youtube)
@@flosrn Cool ! 😁
Globalement c'est mieux quand t'as même pas besoin de faire de scraping, car le moindre changement d'interface peut casser ton code quand tu fais du scraping.
Pas bête ! 🤔
pour youtube sur navigateur web desktop cliques sur les 3 petits points a coté de enregistrer et selectionne afficher la transcription et tu aura des sous titres
Yup ! Sauf que le but c'est de les récupérer automatiquement pour les traiter et les stocker.
J'ai pensé à la possibilité de les scraper directement de RUclips, mais Google est un peu chiant avec les ReCaptcha, du coup pour ça que je préfère passer par un 3rd party qui aura pas autant de contraintes même si je mettais à télécharger beaucoup de sous-titres.