🌍 Cómo Hacer WEB SCRAPING con PYTHON | Extraer Datos de una Web 🔎

Поделиться
HTML-код
  • Опубликовано: 27 окт 2024
  • Tutorial donde vamos a aprender a hacer web scraping utilizando Python, de tal forma que podamos extraer información de una página web para después poder filtrar la información que queramos. Además, en este vídeo vamos a utilizar las expresiones regulares para realizar el filtrado de la información.
    Por útimo, mencionar que en este vídeo vamos a crear un script que compruebe los títulos de las máquinas de vulnhub; y además podrá evaluar si ha habido alguna modificación o no dentro de la página web.
    #webscraping #pythonscraping #hackingetico
    ✅ Canal de Telegram: t.me/elpinguin...
    ⚠️ ATENCIÓN: Este vídeo ha sido creado exclusivamente con fines educativos, todas las demostraciones son realizadas dentro de entornos controlados que han sido creados para realizar estas pruebas sin afectar a nadie. En ningún momento se fomenta el uso inadecuado de estas técnicas.
  • НаукаНаука

Комментарии • 84

  • @ElPinguinoDeMario
    @ElPinguinoDeMario  5 месяцев назад +1

    🚀 Aprende ciberseguridad y hacking ético desde cero con nuestra academia El Rincón del Hacker!! elrincondelhacker.es
    🎓 Curso Preparación eJPT: elrincondelhacker.es/courses/preparacion-certificacion-ejptv2/
    🎓 Curso de Linux y Bash Scripting: elrincondelhacker.es/courses/curso-de-linux-y-bash-scripting/
    🎓 Curso de Docker: elrincondelhacker.es/courses/curso-de-docker/
    Hosting que recomiendo: raiolanetworks.com/landing/hosting-elpinguinodemario/

  • @rgonzalezz
    @rgonzalezz 4 месяца назад +4

    El mejor video que he visto sobre web scraping. Muchas gracias, ¡saludos!

  • @hernandezsosaemilio6651
    @hernandezsosaemilio6651 Год назад +9

    Al verificar si la maquina existe o no en la página html, pueden utilizar en vez de iterar en la lista para comprobar si la última máquina sigue ahí, utilizar
    if maquina_noob in maquinas_final:
    print("No hay máquinas nuevas")
    else: print("Hay una nueva máquina")
    Lo que hace el in es verificar si el elemento presentado esta en el arreglo, lista, set, etc, creo que simplifica más ese for

    • @ManuelAntonioMoraArce
      @ManuelAntonioMoraArce 9 месяцев назад

      Cómo amo está comunidad!!!!❤❤❤ Optimizando ese código 🤜🤛

    • @xguidosan
      @xguidosan 7 месяцев назад

      El problema con este código que presentas es que, al estar iterando elementos e imprimiendo dentro del bucle if, cada vez que itere un elemento de la lista te va a imprimir si hay o no maquinas nuevas, teniendo tantos print como elementos de la lista. en cambio, controlandolo con una variable booleana, el print se ejecutará solo una vez al final y su resultado estará condicionado por el true o false.

  • @CocoReformed
    @CocoReformed Год назад +3

    Muy bien explicado, me servirá para implementarlo a mi bot de discord, muchísimas gracias!

  • @jack.rincon
    @jack.rincon 6 месяцев назад +1

    Buena explicación, soy principiante en python y me quedo claro

  • @1ismae3
    @1ismae3 Год назад +6

    Me gustan mucho tus videos y aprendo mucho como lo explicas paso a paso, me gusta mucho python por que en pocas lineas se pueden hacer muchas cosas y con tu permiso me gustaria aportar una expresion regular para este caso
    print(list(set([x.group(2) for x in re.finditer( r'(href="\/entry\/)(.*)(?=,)', content)])))
    Gracias.
    Un saludo.

  • @G.S.R.D.
    @G.S.R.D. Месяц назад

    Muy buen vídeo, me estaba costando entender cómo se hacía. Y la verdad que se ve mucho más sencillo así 🤟🏾

  • @enrique7649
    @enrique7649 Год назад +3

    Excelente video bastante buena la calidad de tus videos Mario siempre me sorprendes! 👍

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад +1

      Muchas gracias por el apoyo!! Seguiré a tope 😁👍🏻

  • @Autoscraping
    @Autoscraping 9 месяцев назад +1

    Fabuloso video que ha sido de gran ayuda para orientar a nuestros nuevos miembros. ¡Tu generosidad es muy valorada!

  • @efrensoto3273
    @efrensoto3273 2 месяца назад

    Muy buena explicación, lo entendí y son nuevo en esto de programar. Por favor, ¿Tienes algun video explicando como hacer Web Scraping a tablas de datos con python visual studio code? He buscado pero no encuentro. Gracias de antemano.

  • @jl5856
    @jl5856 9 месяцев назад +1

    interesante, gracias. En el caso de que al inspeccionar la web el nombre la búsqueda contenga espacios?? al igual que
    es el salto de linea... que signidica o que utilidad tiene \w- en la linea de la variable patrón,.... y el *?

  • @adolfozamorapescador626
    @adolfozamorapescador626 11 месяцев назад +3

    en la linea 3 el request, dice, module not encontrado, que puede ser y como lo soluciono, por favor su ayuda

  • @leonvenditasdescargas2259
    @leonvenditasdescargas2259 4 месяца назад

    Me gusto mucho el video!

  • @jhavytxu
    @jhavytxu 4 месяца назад +1

    falto que si no encuentra la maquina agrege esa a la lista y elimine la que se estaba evaluando y ver como saber cual es la siguiente maquina a evaluar.

  • @taun_1053
    @taun_1053 10 месяцев назад +5

    me gustaría saber como hacer para que recoja datos de todas las paginas de esas, que esa era solo la primera, sin tener que hacerlo manualmente

    • @elblackmagister1014
      @elblackmagister1014 8 месяцев назад +1

      Me he hecho la misma pregunta, si has encontrado algo, por favor, no dudes en compartirlo, gracias.

    • @polsalvador1898
      @polsalvador1898 6 месяцев назад +1

      Hola buenas, a mí me interesa también si has encontrado algo 😊

  • @mauespinola
    @mauespinola 2 месяца назад

    muy muy bueno

  • @Alejandroponce00
    @Alejandroponce00 4 месяца назад

    muy bueno,gracias

  • @lio-ok-messi
    @lio-ok-messi Год назад

    Sos mi idolo ❤ tus videos son excelente!!!

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад

      Muchísimas gracias por el apoyo!! Se agradece mucho 😁💪🏻

  • @znorluxtm7981
    @znorluxtm7981 Год назад

    Excelente video, este y el de bash me han parecido increíbles, muy buen contenido bro

  • @claudiozenteno8368
    @claudiozenteno8368 4 месяца назад

    Muy bueno.

  • @Mr._MauroFerrera
    @Mr._MauroFerrera Год назад

    Comparto que si no tienen la pagina de peliculas en ingles es posible que no encuentren el /entry/ y les aparezca otro valor y a la hora de imprimir maquinas_repetidas no les saldra .
    deben tener la pagina en ingles y ahi si aparece el /entry/

  • @71MizuCos
    @71MizuCos 11 месяцев назад

    que epico con musica de minecraft de fondo xd IDOLO

  • @michelsalas9045
    @michelsalas9045 5 месяцев назад

    muy buen video, ¿como se puede automatizar y pasar de pagina en pagina y obtenga los títulos. al final obtenerlos todos. gracias.

  • @JuanCarrosa-vz3no
    @JuanCarrosa-vz3no 10 месяцев назад +1

    Hola, ¿ cómo se consulta las páginas 2 en adelante?

  • @eliasmedina9532
    @eliasmedina9532 8 месяцев назад

    tengo una pregunta, si quiero publicar esos datos extraídos de la pagina web en tiempo real y publicarlas en otra pagina web q yo cree y q se actualice cada 1hs, es necesario almacenar los datos en una base de datos ?

  • @subliangel3387
    @subliangel3387 Год назад

    Gracias. Muy útil

  • @jcjsupportmas...3242
    @jcjsupportmas...3242 7 месяцев назад

    Saludos: gracias por tus aportes muy buenos y bien explicado.
    Si es posible que puedas hacer un Vidio donde explique: Existe una página web que contiene los resultados de sorteo de rifas los miércoles y sábados. Quisiera poder leer esa página y sacar los resultados de los últimos 6 sorteos apartir de la consulta del usuario. Y que imprima en pantalla los resultados de los numeros ganadores indicándome las fecha de cada uno.

  • @NicooRamirez
    @NicooRamirez 6 месяцев назад

    Buenas, quisiera saber como hacer para crear algo automático que entre a una página y recoja datos que van saliendo, supongamos que en una página van saliendo números y el "bot" vaya guardando esos números que van saliendo y este automáticamente hasta que se cierre

  • @imagenesolo
    @imagenesolo Год назад

    Que bueno!!!, tengo una duda que no he podido solucionar, quiero tener en un archivo de texto plano todas las url de un dominio (website), lo hago con un wget (en linux y funciona perfecto) pero me encontré con un botón js que un usuario normal, da clic y muestra más enlaces, pero con mi comando no funciona, puedes mostrarme o enseñarme como hacerlo.
    Gracias de antemano

  • @k1i415
    @k1i415 10 месяцев назад

    Al poner print a lo que seria maquinas repetidas no me aparece nada, y la pagina q estoy usando no tiene el entry 😢

  • @gloriafulguera3869
    @gloriafulguera3869 2 месяца назад

    me dan error los import, y no me aparece alguna ayuda para instalar

  • @sebastiannietor9724
    @sebastiannietor9724 Год назад

    Que hago si al momento de ver el codigo desde el inspector me aparece el elemento con su respectiva clase y ids, pero cuando intento acceder con beatiful soup me aparece None, y miro en el codigo fuente presionando (CTRL+U) y ahi no me aparece ese elemento, entonces supongo que por eso el beatiful soup response None
    Qué podria hacer ahi?

  • @elcampitosilvestre
    @elcampitosilvestre Год назад +3

    ya no esta funcionando import request :C

    • @SeudoCoca
      @SeudoCoca 9 месяцев назад

      Si funciona Man, chance no la tienes instalada
      Ve a CDM y escribe "pip install requests"
      Si no pasa nada chance tampoco tienes instalado "pip" y vas a tener que agregar las rutas de python y pip a la variable de entorno
      Cualquier cosa respondes y te ayudo

    • @LuluDecarTon-vs2vr
      @LuluDecarTon-vs2vr 5 месяцев назад

      Igual es requests con s al final yo no puse la s y también me daba error y si tenía instalada la librería

  • @romeoteni8461
    @romeoteni8461 8 месяцев назад

    grande excelente video

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  8 месяцев назад

      Muchas gracias por el apoyo!!

    • @46668
      @46668 7 месяцев назад

      @@ElPinguinoDeMario como hago en el minuto 2:52 dijiste ejecutarlo, donde? o como ? ahi video? me amas?

  • @ThornTech-Cyber
    @ThornTech-Cyber Год назад

    Muy buen video 👌👌

  • @luislopez8300
    @luislopez8300 Год назад

    Como sería entrar a una página web de mis tarjetas de visa. Entrar y extraer archivos de excel

  • @milemontivero3662
    @milemontivero3662 9 месяцев назад

    Sirve para sacar datos de un casino online?

  • @RyanTyan-u5f
    @RyanTyan-u5f Год назад

    una pregunta como abro esa terminal

  • @alexgarces6950
    @alexgarces6950 Год назад

    pregunta como saco esa ventanita que el usa para ejecutar el codigo

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад +1

      Hola!! Clic derecho sobre el código das en ejecutar en una ventana interactiva 💪🏻

  • @DavidArangosoychon
    @DavidArangosoychon Год назад

    from colorama import Fore
    ModuleNotFoundError: No module named 'colorama' porque me sale asi :(

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад

      Hola!! Debes hacer un pip install colorama desde el terminal 👍🏻

    • @DavidArangosoychon
      @DavidArangosoychon Год назад

      @@ElPinguinoDeMario pero ya está instalado probé hasta cambiar de python ;(

  • @Juankchopy
    @Juankchopy Год назад

    👏👍

  • @menillasotelo
    @menillasotelo 3 месяца назад

    "Detestar" o "Detectar" ?????

  • @campos0.196
    @campos0.196 Год назад

    como hago para obtener por ejemplo el contenido de un div
    ejemplo quiero obtener el contenido de una etiqueta en este casi un zapato que esta asi 10.89$
    como hago para obtener el precio

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад

      Buenas! Puedes hacerlo de una forma parecida a la del vídeo, utilizando la librería re y con expresiones regulares ir filtrando la información hasta llegar al precio 👍🏻

  • @gianfrancoeduardobravolude3388
    @gianfrancoeduardobravolude3388 Год назад +1

    Alguien sabe como mandar lo obtenido con el Web Scraping a mi pagina HTML ¿?

  • @elgrillodelanoche
    @elgrillodelanoche 11 месяцев назад

    Se puede hacer un script para extraer solo las preguntas importantes y desechar las preguntas tontillas

  • @romotoons
    @romotoons 4 месяца назад

    los pasos siempre son los mismos ?

  • @Fredix2019
    @Fredix2019 Год назад

    Bro una pregunta para aprender programar se nesecita el inglesh me respondes porfa 😢

    • @BlueTeamBorja
      @BlueTeamBorja Год назад

      Yo te diría que no es necesario. A fuerza de utilizar la sintaxis te la vas aprendiendo. Saludos.

    • @Fredix2019
      @Fredix2019 Год назад

      @@BlueTeamBorja gracias mi bro te lo agradesco mucho

    • @Fredix2019
      @Fredix2019 Год назад

      @@BlueTeamBorja Nuevo seguidor

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад

      Yo pienso lo mismo que borhacking, con saber un poco inglés escrito ya de sobra 😁

    • @BlueTeamBorja
      @BlueTeamBorja Год назад

      @@Fredix2019 Gracias. Ya empezaré a subir alguna cosa.

  • @luislopez8300
    @luislopez8300 11 месяцев назад

    Busco como hacerlo por ejemplo en mi cuenta de banco que tienenhasta kaptcja de numeros y letras ybextraer informacion de mi cta bancaria. Y no veo algun video con eso

  • @sergiocotero6622
    @sergiocotero6622 7 месяцев назад

    Hola

  • @lucascaskajillo540
    @lucascaskajillo540 Год назад

    Soy yo, o esto ya lo he vivido🤔

    • @ElPinguinoDeMario
      @ElPinguinoDeMario  Год назад

      Jaja casi, el otro vídeo era hacer esto mismo con bash, y ahora con Python 😁

    • @lucascaskajillo540
      @lucascaskajillo540 Год назад +1

      @@ElPinguinoDeMario aaaaamigo mio