Python: Web-Scraping para principiantes usando XPATH y BeautifulSoup dos ejemplos

Поделиться
HTML-код
  • Опубликовано: 11 сен 2024

Комментарии • 70

  • @BeatDatafp
    @BeatDatafp  3 года назад +14

    La función para extraer los links en el ejemplo con BeautifulSoup, tiene un error en el video, nunca se referencian los parámetros de la función, eso está corregido en el código del repo de github. Saludos.

    • @israelantonioviera2505
      @israelantonioviera2505 Год назад

      lo siento amigo pero tu curso no se ve que tecleas en la consola no pude hacer nada

  • @CaRsT17
    @CaRsT17 3 года назад +4

    Me agrada mucho encontrar personas como tú que enseñan con paciencia y van al grano, felicidades y espero puedas seguir aportando mas conocimientos a las personas. Gracias.

    • @BeatDatafp
      @BeatDatafp  3 года назад

      Muchas gracias tu comentario, te invito a ver un nuevo video: ruclips.net/video/nIOYAj4bS8g/видео.html&ab_channel=BeatData

  • @nicolazprado4337
    @nicolazprado4337 2 года назад +4

    Eres lo mejor bro, ningun video me funcionaba hasta que vi el tuyo encima te tomaste la molestia de explicar paso a paso! Te debo mi vida bro, me ayudaste muchísimo. Un abrazo.

    • @BeatDatafp
      @BeatDatafp  2 года назад +1

      Muchas gracias tu comentario, te invito a suscribirte para que puedas tener más contenido.
      Saludos

  • @mabegocon
    @mabegocon 3 месяца назад

    Muchas gracias por compartir este contenido, lo escribí línea por línea para practicar y entenderlo, hay que seguir practicando porque no parece sencillo de entender el tema de primera mano.

  • @rafaellaureanoduran9824
    @rafaellaureanoduran9824 Год назад

    Muchas gracias por compartir tu conocimiento. Explicas muy bien, lo cual permite que los menos aventajados podamos aprender. Muchas felicidades.

  • @marthacaballero4613
    @marthacaballero4613 8 месяцев назад

    Muchas gracias, por este video tan completo, Me estoy reencauchando

    • @BeatDatafp
      @BeatDatafp  8 месяцев назад

      Excelente, recuerda que tengo más contenido en mi canal, no olvides suscribirte.

  • @user-uc4rk4ce8y
    @user-uc4rk4ce8y 2 года назад +1

    ¡¡Muchas gracias por el vídeo, explicas genial, me está sirviendo muchísimo!!

    • @BeatDatafp
      @BeatDatafp  2 года назад

      Gracias tu comentario. Te invito a suscribirte para estar al pendiente de más contenido...

  • @FranklinArias6
    @FranklinArias6 2 года назад

    Excelente explicación, muchas gracias. Es una joya este video. Sigue así.

    • @BeatDatafp
      @BeatDatafp  2 года назад +1

      Muchas gracias tu comentario. Saludos

  • @willingtonvelasquez
    @willingtonvelasquez 2 года назад +1

    Gracias campeón ! tu información me ayudo mucho.

  • @mao_o
    @mao_o 2 года назад +1

    muy buen video y muy claro., Gracias.

  • @jacksonford9042
    @jacksonford9042 2 года назад

    Excelente video, muchas gracias

  • @DeepApnea
    @DeepApnea 2 года назад +2

    Buen video, necesitaba comprender y esta todo claro. Puede hacer un video como hacer request put post delete con headers and payload?. Gracias

    • @BeatDatafp
      @BeatDatafp  2 года назад

      Lo tendré en cuenta. Saludos

  • @alex1garcia1
    @alex1garcia1 2 года назад

    Excelente trabajo!! Muchas gracias!!

    • @BeatDatafp
      @BeatDatafp  2 года назад +1

      Hola Muchas gracias tu comentario. En caso te ayude tengo un curso de power query publicado en udemy en este link: www.udemy.com/course/limpieza-y-modelado-de-datos-con-power-query-excel365/?referralCode=23DA7ED46C89ADAB6C78

  • @marvinkadiffvargasmachucat2716
    @marvinkadiffvargasmachucat2716 2 года назад +2

    Hola!!
    Estoy siguiendo tus clases, pero tengo una duda, en la siguiente parte.
    #cada vez que ejecutas esto la url_inicial se sobreescribe
    #debes volver a ejecutar el chonk en donde esta la variable url_inicial original para
    #volver a ejecutar esto, si no solo te tomara la ultima url de la pag 50
    links_items=[]
    i=0
    while i

    • @BeatDatafp
      @BeatDatafp  2 года назад +1

      Hola, gracias tu comentario, si puedes adjuntar el url de la pagina con gusto la reviso y te doy una respuesta. Considera que si es una página estatica o en el DOM se genera una acción al ejecutar javascript esta técnica no te sirve. Deberias obtar por SELENIUM tengo un video en el canal si gustas chekarlo.
      Saludos

  • @SEBASTIANALEJANDROPRECIADOPERA

    cuando el estatus me da el numero 404 y no me da el htm completo, que hago??

  • @rolandohernandez6627
    @rolandohernandez6627 2 года назад +1

    Y que es mejor hacerlo por xpath o con beautifulsoup?

  • @danilocastro8646
    @danilocastro8646 7 месяцев назад

    Muchas gracias por el video, te comento que me resulto perfecto en paginas como ebay y mercado libre obteniendo todos los precios de la pagina, sin embargo, con despegar me trae solo el primer registro de la pagina (paquetes turístico o viajes) a pesar de que los demás precios tienen la misma etiqueta...alguna idea de por que sucede esto?
    Saludos y espero alguien me puede ayudar.

  • @OperadordeCriptodivisas
    @OperadordeCriptodivisas Год назад +1

    Hola consulta como se puede hacer para agregar multiples link ejemplo : 2000 sublink ya que solo necesito obtener 2 datos numéricos, pero lamentablemente no puedo extraerlo de la pagina padre, ya que cada sub link tiene la información especifica que necesito y si coloco la padre me va a tirar la información histórica y es demasiada.

    • @BeatDatafp
      @BeatDatafp  Год назад

      Hola, gracias tu comentario, tal vez este video te pueda ayudar con tu inquietud. O si en caso tuvieras los links que vas usar en un txt o algo parecido, los puedes igual suministrar en una función para poder extraer lo que requieres. Saludos ruclips.net/video/64zPBbc2LTU/видео.html

  • @atzin.0603
    @atzin.0603 2 года назад

    Hola. Se puede implementar en una página web?
    Básicamente lo que quiero es escribir en mi página A un texto y enviarlo con un botón a una Página B y esta página B me devuelve un texto el cual se verá en mi página A

  • @Timmy_1011
    @Timmy_1011 Год назад

    Hola tengo una consulta,
    para una pagina web en la cual tienes que ingresar tu usuario y password y luego ir y pasar varias secciones de la pagina web luego de eso, extraer lo que quieres.
    para esto es otro tipo de procedimiento o este formato puede funcionar=?

  • @ljfi3324
    @ljfi3324 2 года назад

    como identificar al elemento cuando esta en una pagina incrustada dentro de la misma

  • @nicolasgarciap.3277
    @nicolasgarciap.3277 2 года назад

    Cordial saludo, gracias por el video. Tengo una inquietud: si quiero raspar una página pero en esa página es un buscador de números el cual tengo en un excel y quiero que los números que tenga en ese Excel me los busque en la página cada uno y me llene ka información que extraiga de la página??

  • @jorgemarquez1628
    @jorgemarquez1628 2 года назад +1

    ojala pouedas responder habra fomra despues de terminarlo exportar un svc con la imagen? CSV

    • @BeatDatafp
      @BeatDatafp  2 года назад +1

      Hola, gracias tu comentario. Considera que un csv es un archivo plano de texto, por lo que si quieres la imagen en un csv, lo que tendrías es el binari de la imagen, es decir que no verias la imagen si no el codigo binario de ese objeto, si es lo que buscas hacer en el video en 1:43:46 explico como obtienes esa respuesta en binario para que la puedas guardar en el csv.
      Saludos

    • @jorgemarquez1628
      @jorgemarquez1628 2 года назад

      @@BeatDatafp ufff gracias por responder y compartir el conocimiento! Un abrazo Bro !
      Alta duda me sacaste

  • @jorgevaldez-gf3ph
    @jorgevaldez-gf3ph Год назад

    puede hacer un informe detallado en pdf extrayendo personas

  • @Camizer
    @Camizer 2 года назад

    Cómo hacer para que las páginas no te pongan en black list D:, que problema con eso.

  • @jhonylv4501
    @jhonylv4501 2 года назад

    Gracias por tu video, me sirvió de mucho. Algún método que recomiendes para cuando hay captchas? Saludos y gracias nuevamiente.

    • @BeatDatafp
      @BeatDatafp  2 года назад

      Sí son del tipo darle click, puedes pasarlas usando Selenium, si son las de reconocimiento de imagen, es un poco más complejo ya que deberas usar una libreria de reconocimiento de imagen con pytorch o tensorflow y entrenar con el tipo de imagen que estén usando.

  • @yoyo-hs6dj
    @yoyo-hs6dj 2 года назад +1

    hola, llevo poco de video y me esta gustando mucho, y la musica de fondo no altera el video y ayuda a concentrarse la verdad que un 10!, yo he ido aprendiendo un poco de selenium y un poco de todo pero al avanzar me encuentro que las bases no me las he ido encontrando en los videos y me falta entender la sintaxis para poder expandir el codigo y no estancarme, voy por el min 40:15 y lo he puesto en practica el codigo $x("//ul[@class='nav nav-list']/li//ul") pero he quitado el doble // para ver que pasaba poniendo solo $x("//ul[@class='nav nav-list']/li/ul") pero me sigue llevando al mismo sitio, puesto que el primer codigo no pertenece a ul, si no es un

    • @BeatDatafp
      @BeatDatafp  2 года назад

      Hola, gracias tu comentario: es respuesta a tu inquietud sobre el uso del // o solo / en ambos casos te devuelve el resultado ya que el nodo a alcanzar esta en sentido descendente, por la ubicación de la etiqueta a alcanzar y por la formalidad de la expresión se debería usar el // pero funciona en este ejemplo de las dos formas. Hay casos en los que tienes que hacer algo así como union para poder obtener un contenido y en ese caso es obligatorio, por ejemplo '//a | //span' con la barra vertical generas un join de dos expresiones. Saludos

  • @cristianpereira5011
    @cristianpereira5011 Год назад

    Hola Crack. Tengo 2 preguntas.
    1er. Cual es el ide o pagina que estas corriendo python online?
    2da. Como podría hacer Scroll down solo con BeautifulSoup?
    Gracias desde ya...

  • @jorgemarquez1628
    @jorgemarquez1628 2 года назад

    deje un comentario de una duda y me lo borraron?

  • @LdavidMc
    @LdavidMc 10 месяцев назад

    no puedo importar ninguna libreria en jupyter☹

  • @haticeozdemir51
    @haticeozdemir51 2 года назад

    Hi. I want to print a text in span with xpath. But it returns empty array. What would be the reason? Can you help me?

  • @j.4284
    @j.4284 2 года назад

    Hola gracias por tu video excelente, me gustaría poder contact con usted buscaré la forma de comunicarme ya que me gustaría hacerle un planteamiento. Gracias 👍

  • @ponchofcultaft2498
    @ponchofcultaft2498 2 года назад

    Todo iba muy bien hasta que me salió un error de "SyntaxError: invalid syntax" específicamente con esta linea "print(f'Se esta scrapeando la pag numero {indx}')" no encuentro cual es el problema

    • @ponchofcultaft2498
      @ponchofcultaft2498 2 года назад

      crei que lo arregle cambiándola por esta "print('Se esta scrapeando la pag numero ' + str(len(links_entregar)))" pero solo imprime "Se esta scrapeando la pagina numero 50" 50 veces jaja

    • @BeatDatafp
      @BeatDatafp  2 года назад

      Hola, si aún no lo solucionas, te invito a que revises el codigo en el repositorio, el link esta en la descripción. Saludos

  • @benshi1975
    @benshi1975 2 года назад

    consulta, yo tengo que scrapear tablas de paginas que se ingresan con usuario y contraseña, cual seria el codigo para entrar?
    gracias

    • @electrochums-jimmyquezadac3456
      @electrochums-jimmyquezadac3456 2 года назад

      Yo estoy igual... tengo el nombre de usuario y contraseña del servidor y al ingresar las credenciales por el navegador ingreso al servidor y puedo ver las tablas pero al hacer scraping me envía a la página de inicio de ingresar nombre de usuario y contraseña y eso que se supone que ya entré y no puedo pasar esa página... Ayuda please!!!

    • @PaoJara02
      @PaoJara02 2 года назад

      También necesito lo mismos

  • @calceta888
    @calceta888 2 года назад

    Hola que tal, se puede hacer web-scrapping a la pagina de servicios online del SRI para extraer las claves de accesos de un contribuyente con esta metodologia??? por mi parte he intentado con la libreria requests pero me devuelve que "La versi�n de su navegador no es soportada en esta p�gina" y la verdad que no se si este intentando acceder a una pagina dificil porque hay que logearse primero con las credenciales del contribuyente y ademas tiene recatcha, no se si este intentando algo imposible por la complejidad de la pagina que ya se trata de un sistema web seguro

    • @BeatDatafp
      @BeatDatafp  2 года назад +1

      Hola, sí lo puedes hacer, hace un tiempo lo hice para descargar facturas, pero utilice SELENIUM, tengo un video en este canal pero es un ejercicio básico, en todo caso te recomiendo que revises la documentación de SELENIUM y mires los métodos disponibles. Saludos

    • @calceta888
      @calceta888 2 года назад

      @@BeatDatafp ok ya lo checo, aunque con Selenium ya lo hoce y si me resultó, pero quisiera probrar con este metodo, es decir, sin que se abra una instancia de navegador.

  • @carloscuellar675
    @carloscuellar675 3 года назад +1

    Una pregunta, en la primer pagina books.toscrape.com/index.html muestra que son 1000 results showing 1 to 20
    y son 50 paginas por lo tanto debería haber 1000 libros (20x50) pero en el video de acuerdo al código solo te arrojo 517filas, ahí que paso? La pagina entonces tiene 1000 libros como catalogo pero el código solo scrapeo 517 títulos de libros?

    • @BeatDatafp
      @BeatDatafp  3 года назад +1

      Hola, gracias tu comentario. Efectivamente estás en lo correcto, pero el código con XPATH solo toma la primera pagina de cada categoría, sin iterar en caso existan mas páginas (de esa categoria). Mas adelante usando BeautifulSoup desarrollamos la lógica para ingresar y tomar todas las páginas de resultados ingresando en cada una de ellas, y hacer el código más simple. Espero te sea de utilidad. Saludos.

    • @carloscuellar675
      @carloscuellar675 3 года назад

      @@BeatDatafp si termine de ver el video, es justo lo que ando buscando, quiero sacar el titulo de productos, precio y disponibilidad de una web. Gracias por el video. Ya me suscribí 😎

    • @BeatDatafp
      @BeatDatafp  3 года назад

      @@carloscuellar675 perfecto, espero me ayudes compartiendo. Saludos!!!

    • @BeatDatafp
      @BeatDatafp  3 года назад +1

      Bro, no sé porque no me muestra tu comentario sobre el error. El error fue que no estaban referenciados los parámetros de la función, es lo que pasa cuando se hace al apuro jejejeej . Ya lo corregí y esta cargado en el repo. Gracias tus observaciones.