Muy bien. Me gustaría que invitaran más colaboradores y el canal tenga más actividad 👍 similar al canal en inglés. La comunidad en español los necesita 🙌
Magnífico! El curso fue fluido y claro. Ahora queda practicar e implementarlo e interactuar con otros sitios de interés! No queda más que agradecer por compartir contenido gratuito y de calidad! 🙌😁
Impresionantn lo bien que explica Juantorena. Introduce el tema, contextualiza y desarrolla todo en detalle para que no queden conceptos librados al azar. Maravilloso tutorial, muy por encima de muchos contenido pagos que he visto de diversos temas. Felicitaciones y muchas gracias por el trabajo.
Hasta el momento estoy encantada con el curso, la explicación de las temáticas es amigable y clara, adicional a ello, el repo de GitHub con la presentación y el código a trabajar 🙌 Compartir el conocimiento, gratis y con este nivel de calidad! Simplemente agradecida! Hace mucho estaba por reforzar mis conocimientos en el tema y me animé con tu curso 👌 espero llevarlo a feliz término. Muchas gracias 🧠😁
Muy útil, complementa lo que he aprendido en otro tutorial. Además me alegra ver este contenido en español, ya había pasado por el canal de fcc pero en inglés, no sabía que existía este. Gracias
Fue chevere aprender hice webscraping junto con selenium, guardando en bases de datos, sacando estadisticas pero un año a eso y no conseguí ni un cliente.
mil gracias, muy bueno; a la hora de ponerlo en practica se me dificulta un poco cuando los divs cargan información de bases de datos y servidores internos, ademas de estilos de Javascript, osea las paginas que cargan ventas de usuarios externos como las inmobiliarias.
@@gustavojuantorena podria ser algo que se lleve a cabo en las empresas un ejemplo real pero complicado desde el webscraping hasta el data analytic y en lo posible data science para despues poder expresar lo buscado en graficos, como en power BI, Qlickview, etc...
Hola Saludos muy buen curso. Me trabe en el ejercicio 2. Se debe separar el string de la lista producto y hacer un diccionario q contenga la condicion de la patineta(nueva, usada) y otra con el numero para despues hacer el condicional donde se muestren las q tengan un numero mayor a 3 ???
Hola Carlos, qué bueno que te hayas puesto a hacer los ejercicios. Lo podés hacer de muchas formas pero lo importante es poder filtrar y quedarte solo con las patinetas que tengan un número mayor a 3 en su nombre y su correspondientes precios. Separar el string y después usar un condicional me parece una buena estrategia. Vas a tener que tener cuidado que para hacer esa comparación de númeor "mayor" vas a tener que trabajar con valores numéricos (int o float) y no strings. Saludos!
Hola, se puede hacer un scrap que me guarde el valor de una pagina cada hora? osea es un contador pero quiero capturar que valor tenia a la 1am, 2am, etc. obviamente si apago el equipo no se si se puede desde google colab. gracias.
Hola! Si, hay muchas maneras de hacer que un codigo se ejecute cada un determinado tiempo, en sistemas UNIX como Linux y Mac se puede usar un software por terminak que se llama cron (podes buscar "cron jobs"). En Windows podés usar el programador de tareas. Respecto a Colab, suele se un problema porque después de cierto tiempo de inactividad no te deja seguir usándolo, por eso mejor correr el código como un script de Python. Espero que te sirva. Saludos!
Hola como están.. mi hijo quiere aprender a programar que tipo de computadora tiene que tener?..desde ya gracias por la información y saludos desde Argentina
En la parte de la tabla, si estás mirando constantemente el html de la página. No es mas fácil entonces simplemente hacer un get de la url/table.html ? XD
Hola! Tu observación está muy bien, en este caso el objetivo era mostrar como lidiar con elementos , dónde algunas veces no es tan fácil acceder a la URL dónde está alojada la información.
Depende de varios factores: Si la información está pública sin necesidad de utilizar usuario y contraseña, copyright y de los términos y condiciones de la página.
Hola! Si, no es necesariamente algo sencillo. Fíjate en la.docimentación de la librería requests que se puede pasar un parámetro cookies con un diccionario que contenga las que necesites.
Hola Matías. Podrías ser más específico? El código que les compartimos funciona tal cual está en scrapepark, pero los conceptos sí son generales para ser utilizados en otras páginas.
Hola Alfredo, para el caso de autenticación, luego de asegurarte que esa página permite el scraping, deberías usar una herramienta como Selenium o Playwright que te permita emular la acción del navegador. Las ideas generales del curso te van a seguir siendo útiles (por ejemplo cómo acceder al espacio para poner el nombre de usuario y la contraseña), pero BeatifoulSoup no está pensado para ese tipo de casos. Éxitos!
When performing web scraping, if you encounter websites where certain HTML elements, like divs, lack consistent information (for example, one company's div has all details while another company's div is missing revenue information), it can lead to issues when converting the data into a CSV file.
hola, pip3 install --force-reinstall -v no se instala por ende hay error en todo el codigo, al final de la instalacion dice que hay instalado normalizer.exe en PATH, quito el normalizer.exe?
Me podés explicar más sobre el error? La idea es ejecutarlo directamente en Google Colab y ahí no debería aparecer ningún archivo ".exe" porque está corriendo en Linux
@@gustavojuantorena Si, es que sale una carpeta en windows que es python 11, nunca lo instale, dentro de ella hay un archivo de normalizer.exe que aparecio de la nada, no se donde enviarte las capturas de pantallas.
@@josepifarre9172 Te recomiendo que lo ejecutes en Google Colab, es directamente en el navegador y no vas a tener ese problema. En la descripción de este video entrás al link que dice "Código del curso ... " y cuando entres a ese repositorio apretas en el boton "open in colab" que està despuès de "👩💻 Accedé al código del curso entrando al siguiente enlace:" De este modo no vas a tener ningún problema con windows porque se va a estar ejecutando en la nube de google con un sistema Linux por detrás. Saludos!
Es verdad! Lo definí y no lo usé, muy buena observación. Me imagino que al principio pensé en guardarme todas las urls en esa lista pero al final decidí descargarlas directamente.
Hola! No sabría decirte exactamente porque hay diferentes maneras de medir que tan rápido funciona, pero en Python usar BeatifoulSoup es una opción veloz (respecto a Selenium por ejemplo). Así que si aplica al caso de uso, suele ser de lo primero que se utiliza. Saludos!
Me habría gustado tener la explicación del apartado Pedidos HTTP con requests que hay en Colab. ¿Sería un error de edición? Comenzó desde Uso basico de APIs 🤔
Hola Javier, no creo haber hablado de exploits ¿A qué te referís? Sobre la autenticación podés ver la documentación de la librería Requests que tiene varias opciones, pero también es común usar otras herramientas como Selenium. Saludos!
@@javieramartinez3146 Un ejemplo básico podría ser el siguiente: import requests from requests.auth import HTTPBasicAuth response = requests.get(url de la web', auth=HTTPBasicAuth('tu_usuario', 'tu_contrasena')) Pero va a depender de otros factores, te recomiendo ir a la documentación de Requests. Saludos!
Si los archivos PDF están públicos podrías descargarlos de manera similar a cómo nos bajamos las imágenes en este caso. Luego deberías procesar el contenido de ese PDF ya en tu computadora (por ejemplo usando una librería de OCR)
Alguien que pueda ayudarme con una duda que tengo? Quiero extraer datos de una plataforma. La plataforma pues no es de acceso libre sino que debes pagar una suscripción. Yo estoy construyendo una herramienta que facilita mi interacción con la plataforma y para ello debo extraer algunos datos. ¿Es posible hacer web scraping a una plataforma de paga si sí tienes la suscripción?
Si tienes usuarios y contraseña para entrar Beautiful Soup no es la librería que necesitas para realizar webscrapping tendrías que mirar la librería bastante más potente llamada Selenium.
@@gustavojuantorena Buenas noches, es aparte sabrás en tu experiencia si existen páginas que de alguna manera cifren los datos para que no puedan ser extraídos?
Hola JAMES, normalmente uno no tiene acceso para colocar información en una página de internet y modificarla. De eso se encarga aquella persona que la creó y/o la mantiene.
La descarga de las imagenes no funciona del todo bien. . De hecho las imagenes son solo de tamaño 4kB cuando las descargo con el codigo tal cual lo implementas Sin embargo si las puedo abrir si las descargo directamente con un tamaño promedio de 200 KB Algo no está yendo bien
Hola @antonioroa3971, no estoy logrando replicar tu problema. Con el código como está implementado se descargan en la misma calidad que en la página, en un rango de tamaños entre 20kbs y 3 Mbs. De todos modos sin dudas esa implementación puede mejorarse! Saludos
Hola! En el curso lo usamos en Linux ya que Google Colab está corriendo en una computadora con ese sistema operativo. No hay que hacer nada distitno a correr el código tal cual está, ya que Python es multiplataforma
me da error: --------------------------------------------------------------------------- NameError Traceback (most recent call last) in () ----> 1 precios NameError: name 'precios' is not defined ¿Como se soluciona?
Hola. El error dice que 'precios' no fue definido, probablemente te haya faltado ejecutar una celda anterior donde se define esa lista. Fijate en la celda que comienza con estas lìneas: divs = soup.find_all('div', class_='detail-box') productos = [] precios = [] Saludos!
En principio deberías poder enviar información al servidor, emulando lo que hacés al completar el login manualmente. Una de las maneras mas comunes es emulando un navegador por ejemplo utilizando herramientas como Selenium o Playwright. De todos modos deberías ver que no estés incumpliendo los términos y condiciones de la página. Saludos.
Hasta el minuto 31 y 30 segundos todo bien. Cuando se corren las dos ordenes me da error --------------------------------------------------------------------------- NameError Traceback (most recent call last) in () ----> 1 type(respuesta_sunset) NameError: name 'respuesta_sunset' is not defined Que quede claro que yo no se nada de programacion. Pero pense que era para todos este video.
@@gustavojuantorena Quizás empezar primero con un repaso de python y la forma de manejar itersbles, resaltar al principio que bs4 retorna un objeto de besrifulsoup y no un iterables común. profundizar un poco más con el manejo de excepciones que están en la documentación de la librería, más ejercicios que estén entre cada 1 o 2 módulos para lograr esa sensación de progreso en el aprendizaje. Esto ya es una opinión pero el no usar vscode no está mal pero es el entorno que siempre manejamos así que creo que sería mejor intentar adecuarse ya a la herramienta de trabajo del día a dia
Hola! Para esos casos te van a servir las ideas generales de este curso pero vas a tener que usar una herramienta Selenium o Playwright que te permitan interactuar con páginas más dinámicas que tengan mucho código en JavaScript.
Hola, usar una VPN no suele ser la alternativa ante un bloqueo, lo que suelen hacer algunas personas es ir rotando proxies o buscando otra manera de hacer los pedidos al servidor desde otra IP.
Muy bien. Me gustaría que invitaran más colaboradores y el canal tenga más actividad 👍 similar al canal en inglés. La comunidad en español los necesita 🙌
¿CUÁL ERA EL LENGUAJE DE PROGRAMACIÓN R?
El lenguaje es Python corriendo dentro de google colab que son cuadernos de Jupyter Notebooks@@ivanvaras352
Sin haberlo visto aún ya lo guardo en mis listas y le doy su like....gracias 👍
Yo también 😂
Muchas gracias, el curso muy comprehensivo, fácil de entender y replicar.
Extraordinario material audiovisual que ha sido de gran utilidad para nuestros nuevos colaboradores. ¡Tu generosidad es inmensamente apreciada!
JUSTO ESTOY EN LA MATERIA DE MINERIA DE DATOS Y ESTO ES JUSTAMENTE LO QUE BUSCABA
Magnífico!
El curso fue fluido y claro.
Ahora queda practicar e implementarlo e interactuar con otros sitios de interés!
No queda más que agradecer por compartir contenido gratuito y de calidad! 🙌😁
Me gusto mucho, hace un tiempo que queria aprender como hacer el web scraping, voy a poner en practica los conocimentos, muchas gracias por el video 👍
Impresionantn lo bien que explica Juantorena. Introduce el tema, contextualiza y desarrolla todo en detalle para que no queden conceptos librados al azar. Maravilloso tutorial, muy por encima de muchos contenido pagos que he visto de diversos temas.
Felicitaciones y muchas gracias por el trabajo.
Muchas gracias!
@@gustavojuantorena a vos!
Excelente explicación. Creo que no se puede hacer mejor y la página web de ejemplo para practicar es fabulosa. Mil gracias
Gracias Gustavo!! muy claro el curso y muy útil para quienes nos estamos iniciando en estas herramientas.
Hasta el momento estoy encantada con el curso, la explicación de las temáticas es amigable y clara, adicional a ello, el repo de GitHub con la presentación y el código a trabajar 🙌 Compartir el conocimiento, gratis y con este nivel de calidad! Simplemente agradecida!
Hace mucho estaba por reforzar mis conocimientos en el tema y me animé con tu curso 👌 espero llevarlo a feliz término.
Muchas gracias 🧠😁
Muy útil, complementa lo que he aprendido en otro tutorial. Además me alegra ver este contenido en español, ya había pasado por el canal de fcc pero en inglés, no sabía que existía este.
Gracias
Acabo de finalizar el curso, gracias por vuestro trabajo me ha ayudado para una introducción a Beautiful Soup ahora toca practicar :)
Obvio es re contra legal e importante lo que voy a hacer con esto.
Las palabras salvan vidas.
Superrrrr. Graciassss Milessss al equipo de FreecodeCamp. Bendiciones miless🇨🇺🇨🇺🇨🇺
Buenisimo! Me gustó mucho el cursito, me llevo algunos trucos que no conocía. Los felicito por su trabajo! 👏🏻🍻
Excelente clase, muy pedagógico. Muchas gracias
Muchas gracias Gustavo Juantorena, me facilitaste mucho las cosas, bendiciones. saludos del tabo, chile
Increible contenido, muchas gracias por compartir esto de forma gratuita!!
Muy buena clase. Muchas gracias por compartir el conocimiento. Saludos!
Muy buen curso, casos prácticos y ejemplos para varios posibles escenarios, qué calidad este curso!!
Muchísimas gracias. Impresionante curso. Es la primera vez con Python y esto tiene un potencial enorme. Muy bien explicado. Enhorabuena.
Saludos, aquí siempre al dia con los nuevos videos.
Muy bueno el curso. Muchas gracias por todo el contenido y las explicaciones. Excelente calidad!
Apoyo total al canal 🤗 espero algún día ver cursos a la par que FreeCodeCamp la principal
Gracias por este curso, fue de lo mejor 👍
Muy bueno!. Ojalá tengamos más contenido, aprovechando todo el conocimiento de Gustavo!
Excelente el contenido!! muchas gracias por generar contenido de calidad en español! Salu2!
Ahora a practicar, muy bueno gracias!!😊
Gracias freecodecamp y Gustavo! 🙏
Minuto 1:34:12 el metodo zip() también funciona con tres listas. Por ejemplo se puede usar esto:
datos = list(zip(marcas, nombres, precios))
Muy bien, lo explicas muy bien, muchas gracias
Gracias por crear estos cursos ❤❤❤
Enorme clase! muchas gracias
Gracias infinitas, estaba justo necesitando este tema 🎉🎉🎉🎉🎉
BUen Trabajo. Muy Claro. Gracias!
Todavia no lo veo, pero ya me gusta que tenga imagenes de los simpsons, eso si es mucho muy importante
Excelente curso , ahora a practicar
brutal, gracias crack :3, gracias por existir este hermoso canal :3
Que tema tan interesante y poderoso. Gracias. 🏆🏆🏆
Gracias por este curso. Muy lindo!!
Fue chevere aprender hice webscraping junto con selenium, guardando en bases de datos, sacando estadisticas pero un año a eso y no conseguí ni un cliente.
Excelente, gracias por compartir este conocimiento 🤙
Vamos!!! 🎉🎉
Excelente contenido. Muchas gracias.
Muy buen curso. Agradecido:
Joder!! me encanta este curso
Excelente curso
Gracias por compartir..
Gracias por compartir
Impecable!!
Muuuuchas gracias!!
mil gracias, muy bueno; a la hora de ponerlo en practica se me dificulta un poco cuando los divs cargan información de bases de datos y servidores internos, ademas de estilos de Javascript, osea las paginas que cargan ventas de usuarios externos como las inmobiliarias.
Excelente 👌
hermosa clase y muy bien explicada para alguien que recien inicia, existira mas clases sobre web scraping con el mismo instructor?
Gracias! Por ahora esta. Qué tema de web scraping te gustaría que se enseñe y no está incluído en este curso?
@@gustavojuantorena podria ser algo que se lleve a cabo en las empresas un ejemplo real pero complicado desde el webscraping hasta el data analytic y en lo posible data science para despues poder expresar lo buscado en graficos, como en power BI, Qlickview, etc...
Hola, muchas gracias! Alguna librería recomendada para scrapear gran cantidad de texto (400 pag)? @gustavojuantorena
gracias por esto
🎉Te volaste la barda, con este curso...😂
Muchas gracias.
Muy util gracias!
Hola Saludos muy buen curso. Me trabe en el ejercicio 2. Se debe separar el string de la lista producto y hacer un diccionario q contenga la condicion de la patineta(nueva, usada) y otra con el numero para despues hacer el condicional donde se muestren las q tengan un numero mayor a 3 ???
Hola Carlos, qué bueno que te hayas puesto a hacer los ejercicios. Lo podés hacer de muchas formas pero lo importante es poder filtrar y quedarte solo con las patinetas que tengan un número mayor a 3 en su nombre y su correspondientes precios. Separar el string y después usar un condicional me parece una buena estrategia. Vas a tener que tener cuidado que para hacer esa comparación de númeor "mayor" vas a tener que trabajar con valores numéricos (int o float) y no strings. Saludos!
Vamos Argentina, carajo
Buen curso
Excelente ❤️
Ahora necesito un curso de SQL, please.
Saludos desde Brasil
Excelente, nos podrían compartir presentacion que uso al inicio por favor ?
Hola @LeninElio, las acabo de agregar en el repositorio del curso que está en la descripción. Saludos!
Hola, se puede hacer un scrap que me guarde el valor de una pagina cada hora? osea es un contador pero quiero capturar que valor tenia a la 1am, 2am, etc. obviamente si apago el equipo no se si se puede desde google colab. gracias.
Hola! Si, hay muchas maneras de hacer que un codigo se ejecute cada un determinado tiempo, en sistemas UNIX como Linux y Mac se puede usar un software por terminak que se llama cron (podes buscar "cron jobs"). En Windows podés usar el programador de tareas. Respecto a Colab, suele se un problema porque después de cierto tiempo de inactividad no te deja seguir usándolo, por eso mejor correr el código como un script de Python. Espero que te sirva. Saludos!
@@gustavojuantorena Gracias, voy a mirarlo.
Hola como están.. mi hijo quiere aprender a programar que tipo de computadora tiene que tener?..desde ya gracias por la información y saludos desde Argentina
Cualquiera vale. No necesitas nada potente. En Google Colab se hace todo en la nube
Coincido. No se necesita una computadora más allá de lo estándar para empezar a programar. Muchos éxitos para él!
Gracias por la información!!!
En la parte de la tabla, si estás mirando constantemente el html de la página. No es mas fácil entonces simplemente hacer un get de la url/table.html ? XD
Hola! Tu observación está muy bien, en este caso el objetivo era mostrar como lidiar con elementos , dónde algunas veces no es tan fácil acceder a la URL dónde está alojada la información.
Donde se encuentra la resolución de los ejercicios finales?
Hola! Cómo digo en el vídeo, si hay dudas las podemos resolver acá en los comentarios. Te trabaste con alguno? Hay una duda puntual?
El web scraping es Ilegal? En algunos lugares no lo permiten y por lo tanto me lleva a una inquietud.. Vale la pena aprenderlo?
Depende de varios factores: Si la información está pública sin necesidad de utilizar usuario y contraseña, copyright y de los términos y condiciones de la página.
Muchas gracias por el curso muy util, uno de los problemas que me he encontrado es no poder superar el aceptar cookies. No se como resolverlo.
Hola! Si, no es necesariamente algo sencillo. Fíjate en la.docimentación de la librería requests que se puede pasar un parámetro cookies con un diccionario que contenga las que necesites.
😮
Hay comunidades de esto? Me gustaria unirme a alguna para ver que cosas van saliendo. Saludos
porque aveces me da el resultado y otras no? en otra web lo probé! mismo codigo
Hola Matías. Podrías ser más específico? El código que les compartimos funciona tal cual está en scrapepark, pero los conceptos sí son generales para ser utilizados en otras páginas.
¿como se podria aplicar en alguna pagina que previamente se requeire autenticar?
Hola Alfredo, para el caso de autenticación, luego de asegurarte que esa página permite el scraping, deberías usar una herramienta como Selenium o Playwright que te permita emular la acción del navegador. Las ideas generales del curso te van a seguir siendo útiles (por ejemplo cómo acceder al espacio para poner el nombre de usuario y la contraseña), pero BeatifoulSoup no está pensado para ese tipo de casos. Éxitos!
When performing web scraping, if you encounter websites where certain HTML elements, like divs, lack consistent information (for example, one company's div has all details while another company's div is missing revenue information), it can lead to issues when converting the data into a CSV file.
hola, pip3 install --force-reinstall -v no se instala por ende hay error en todo el codigo, al final de la instalacion dice que hay instalado normalizer.exe en PATH, quito el normalizer.exe?
Me podés explicar más sobre el error? La idea es ejecutarlo directamente en Google Colab y ahí no debería aparecer ningún archivo ".exe" porque está corriendo en Linux
@@gustavojuantorena Si, es que sale una carpeta en windows que es python 11, nunca lo instale, dentro de ella hay un archivo de normalizer.exe que aparecio de la nada, no se donde enviarte las capturas de pantallas.
@@josepifarre9172 Te recomiendo que lo ejecutes en Google Colab, es directamente en el navegador y no vas a tener ese problema. En la descripción de este video entrás al link que dice "Código del curso ... " y cuando entres a ese repositorio apretas en el boton "open in colab" que està despuès de "👩💻 Accedé al código del curso entrando al siguiente enlace:" De este modo no vas a tener ningún problema con windows porque se va a estar ejecutando en la nube de google con un sistema Linux por detrás. Saludos!
@@gustavojuantorena Muchísimas gracias
@@josepifarre9172 De nada! 😀
por las puras fue el diccionario url_imagenes cierto? no lo llegaste a usar en la hora 1h:00min
Es verdad! Lo definí y no lo usé, muy buena observación. Me imagino que al principio pensé en guardarme todas las urls en esa lista pero al final decidí descargarlas directamente.
@@gustavojuantorena uy muchas gracias por la rápida respuesta. Gracias me habia quedado con esa duda, ahora puedo vivir tranquilo
Cual libreria hace el webscraping mas rapido que existe?
Hola! No sabría decirte exactamente porque hay diferentes maneras de medir que tan rápido funciona, pero en Python usar BeatifoulSoup es una opción veloz (respecto a Selenium por ejemplo). Así que si aplica al caso de uso, suele ser de lo primero que se utiliza. Saludos!
@@gustavojuantorena le puedo hacer scraping a titktok o me boquea la ip? Saludos
Primero deberías asegurarte de no estar incumpliendo las condiciones. En ese caso me parece probable que te bloqueen la IP después de algunos requests
bs4 pero no sirve para la mayorias de paginas , lo mejor es Selenium
Me habría gustado tener la explicación del apartado Pedidos HTTP con requests que hay en Colab. ¿Sería un error de edición? Comenzó desde Uso basico de APIs 🤔
Quedó fuera de la edición final, pero no involucra algo que no se explique. Si hay alguna duda puntual decinos!
Una que no tiene que ver con el curso, pero quisiera una recomendación. ¿Que distribución de Linux usas en tu máquina?
@@sarismejiasanchez Uso Ubuntu
@@gustavojuantorena gracias ☺️
Puedes explicar como es el asunto de los Exploits? como puedo mandar parametros desde python y poder hacr scraping haciendo login en un sitio web?
Hola Javier, no creo haber hablado de exploits ¿A qué te referís? Sobre la autenticación podés ver la documentación de la librería Requests que tiene varias opciones, pero también es común usar otras herramientas como Selenium. Saludos!
@@gustavojuantorena Hola, me refería al envío de Pos para hacer log in. Agradecido por la buena documentación
@@javieramartinez3146 Un ejemplo básico podría ser el siguiente:
import requests
from requests.auth import HTTPBasicAuth
response = requests.get(url de la web',
auth=HTTPBasicAuth('tu_usuario', 'tu_contrasena'))
Pero va a depender de otros factores, te recomiendo ir a la documentación de Requests.
Saludos!
Puedo hacerle web scraping a pdf subidos en la web con datos publicados
Si los archivos PDF están públicos podrías descargarlos de manera similar a cómo nos bajamos las imágenes en este caso. Luego deberías procesar el contenido de ese PDF ya en tu computadora (por ejemplo usando una librería de OCR)
@@gustavojuantorena que librería OCR se podría utilizar?
@@jacarrascom Por ejemplo pytesseract
Alguien que pueda ayudarme con una duda que tengo?
Quiero extraer datos de una plataforma. La plataforma pues no es de acceso libre sino que debes pagar una suscripción. Yo estoy construyendo una herramienta que facilita mi interacción con la plataforma y para ello debo extraer algunos datos. ¿Es posible hacer web scraping a una plataforma de paga si sí tienes la suscripción?
Normalmente si hay que poner nombre de usuario y contraseña, hacer scraping no está permitido. Deberías ver los términos y condiciones de la web.
Si tienes usuarios y contraseña para entrar Beautiful Soup no es la librería que necesitas para realizar webscrapping tendrías que mirar la librería bastante más potente llamada Selenium.
En mi caso la tabla de la que quiero extraer los datos si la muestra en el HTML pero al extraer los datos solo me muestra la etiqueta que la contiene:
Es alguna duda sobre el curso? O un proyecto de web scraping aparte?
@@gustavojuantorena Buenas noches, es aparte sabrás en tu experiencia si existen páginas que de alguna manera cifren los datos para que no puedan ser extraídos?
@@TheJory248 Hola, si efectivamente puede pasar eso, por ejemplo con cifrado XOR. Podés buscarlo en Google para más información
como hago para esa información luego insertarla en la misma pagina?
Hola JAMES, normalmente uno no tiene acceso para colocar información en una página de internet y modificarla. De eso se encarga aquella persona que la creó y/o la mantiene.
La descarga de las imagenes no funciona del todo bien. . De hecho las imagenes son solo de tamaño 4kB cuando las descargo con el codigo tal cual lo implementas
Sin embargo si las puedo abrir si las descargo directamente con un tamaño promedio de 200 KB
Algo no está yendo bien
Hola @antonioroa3971, no estoy logrando replicar tu problema. Con el código como está implementado se descargan en la misma calidad que en la página, en un rango de tamaños entre 20kbs y 3 Mbs. De todos modos sin dudas esa implementación puede mejorarse! Saludos
no era que el próximo curso iba a ser el de videojuegos???
Buenas, alguien sabe como puedo usar a api de wikipedia en ubuntu linux?
Hola! En el curso lo usamos en Linux ya que Google Colab está corriendo en una computadora con ese sistema operativo. No hay que hacer nada distitno a correr el código tal cual está, ya que Python es multiplataforma
me da error:
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
in ()
----> 1 precios
NameError: name 'precios' is not defined
¿Como se soluciona?
Hola. El error dice que 'precios' no fue definido, probablemente te haya faltado ejecutar una celda anterior donde se define esa lista.
Fijate en la celda que comienza con estas lìneas:
divs = soup.find_all('div', class_='detail-box')
productos = []
precios = []
Saludos!
Que hacer si la página pide un login?
En principio deberías poder enviar información al servidor, emulando lo que hacés al completar el login manualmente. Una de las maneras mas comunes es emulando un navegador por ejemplo utilizando herramientas como Selenium o Playwright. De todos modos deberías ver que no estés incumpliendo los términos y condiciones de la página. Saludos.
Hasta el minuto 31 y 30 segundos todo bien. Cuando se corren las dos ordenes me da error ---------------------------------------------------------------------------
NameError Traceback (most recent call last)
in ()
----> 1 type(respuesta_sunset)
NameError: name 'respuesta_sunset' is not defined
Que quede claro que yo no se nada de programacion. Pero pense que era para todos este video.
Usè la data de la misma sunset y dio resultado. Paso derecho al scraping porque la parte de la api es mas confusa que la data de la pagina sunset
Y monica me dice que el archico de respuesta es un jSON
Hola Eduardo. No entendí mucho tu problema, ya lo solucionaste? Saludos
Muy buen curso pero siento que le faltó llegar un poco mas a profundidad en los temas
Gracias ¿Qué te parece que le faltó?
@@gustavojuantorena Quizás empezar primero con un repaso de python y la forma de manejar itersbles, resaltar al principio que bs4 retorna un objeto de besrifulsoup y no un iterables común. profundizar un poco más con el manejo de excepciones que están en la documentación de la librería, más ejercicios que estén entre cada 1 o 2 módulos para lograr esa sensación de progreso en el aprendizaje. Esto ya es una opinión pero el no usar vscode no está mal pero es el entorno que siempre manejamos así que creo que sería mejor intentar adecuarse ya a la herramienta de trabajo del día a dia
@@_awesomnet_4687 Gracias! Lo voy a tener en cuenta para próximos cursos!
Biologo especializado en neurociencias y doctor en inteligencia artificial... Ahí te veo Skynet
😂😂😂
Hola, me encana su canal, tienen videos de Devops? gracias
Por ahora no hay videos de DevOps
como hacer web scraping para paginas dinamicas con insercion con javascript
Hola! Para esos casos te van a servir las ideas generales de este curso pero vas a tener que usar una herramienta Selenium o Playwright que te permitan interactuar con páginas más dinámicas que tengan mucho código en JavaScript.
Que vpn se puede usar para que no bloqueen la ip? saludos.
Hola, usar una VPN no suele ser la alternativa ante un bloqueo, lo que suelen hacer algunas personas es ir rotando proxies o buscando otra manera de hacer los pedidos al servidor desde otra IP.
Chatgpt y era. Mas facil
Gracias, es algo nuevo que aprender
Excelente 👌