🌍 Cómo Hacer WEB SCRAPING con PYTHON | Extraer Datos de una Web 🔎
HTML-код
- Опубликовано: 27 окт 2024
- Tutorial donde vamos a aprender a hacer web scraping utilizando Python, de tal forma que podamos extraer información de una página web para después poder filtrar la información que queramos. Además, en este vídeo vamos a utilizar las expresiones regulares para realizar el filtrado de la información.
Por útimo, mencionar que en este vídeo vamos a crear un script que compruebe los títulos de las máquinas de vulnhub; y además podrá evaluar si ha habido alguna modificación o no dentro de la página web.
#webscraping #pythonscraping #hackingetico
✅ Canal de Telegram: t.me/elpinguin...
⚠️ ATENCIÓN: Este vídeo ha sido creado exclusivamente con fines educativos, todas las demostraciones son realizadas dentro de entornos controlados que han sido creados para realizar estas pruebas sin afectar a nadie. En ningún momento se fomenta el uso inadecuado de estas técnicas. - Наука
🚀 Aprende ciberseguridad y hacking ético desde cero con nuestra academia El Rincón del Hacker!! elrincondelhacker.es
🎓 Curso Preparación eJPT: elrincondelhacker.es/courses/preparacion-certificacion-ejptv2/
🎓 Curso de Linux y Bash Scripting: elrincondelhacker.es/courses/curso-de-linux-y-bash-scripting/
🎓 Curso de Docker: elrincondelhacker.es/courses/curso-de-docker/
Hosting que recomiendo: raiolanetworks.com/landing/hosting-elpinguinodemario/
El mejor video que he visto sobre web scraping. Muchas gracias, ¡saludos!
Al verificar si la maquina existe o no en la página html, pueden utilizar en vez de iterar en la lista para comprobar si la última máquina sigue ahí, utilizar
if maquina_noob in maquinas_final:
print("No hay máquinas nuevas")
else: print("Hay una nueva máquina")
Lo que hace el in es verificar si el elemento presentado esta en el arreglo, lista, set, etc, creo que simplifica más ese for
Cómo amo está comunidad!!!!❤❤❤ Optimizando ese código 🤜🤛
El problema con este código que presentas es que, al estar iterando elementos e imprimiendo dentro del bucle if, cada vez que itere un elemento de la lista te va a imprimir si hay o no maquinas nuevas, teniendo tantos print como elementos de la lista. en cambio, controlandolo con una variable booleana, el print se ejecutará solo una vez al final y su resultado estará condicionado por el true o false.
Muy bien explicado, me servirá para implementarlo a mi bot de discord, muchísimas gracias!
Buena explicación, soy principiante en python y me quedo claro
Me gustan mucho tus videos y aprendo mucho como lo explicas paso a paso, me gusta mucho python por que en pocas lineas se pueden hacer muchas cosas y con tu permiso me gustaria aportar una expresion regular para este caso
print(list(set([x.group(2) for x in re.finditer( r'(href="\/entry\/)(.*)(?=,)', content)])))
Gracias.
Un saludo.
Muy buen vídeo, me estaba costando entender cómo se hacía. Y la verdad que se ve mucho más sencillo así 🤟🏾
Excelente video bastante buena la calidad de tus videos Mario siempre me sorprendes! 👍
Muchas gracias por el apoyo!! Seguiré a tope 😁👍🏻
Fabuloso video que ha sido de gran ayuda para orientar a nuestros nuevos miembros. ¡Tu generosidad es muy valorada!
Muy buena explicación, lo entendí y son nuevo en esto de programar. Por favor, ¿Tienes algun video explicando como hacer Web Scraping a tablas de datos con python visual studio code? He buscado pero no encuentro. Gracias de antemano.
interesante, gracias. En el caso de que al inspeccionar la web el nombre la búsqueda contenga espacios?? al igual que
es el salto de linea... que signidica o que utilidad tiene \w- en la linea de la variable patrón,.... y el *?
en la linea 3 el request, dice, module not encontrado, que puede ser y como lo soluciono, por favor su ayuda
Me gusto mucho el video!
falto que si no encuentra la maquina agrege esa a la lista y elimine la que se estaba evaluando y ver como saber cual es la siguiente maquina a evaluar.
me gustaría saber como hacer para que recoja datos de todas las paginas de esas, que esa era solo la primera, sin tener que hacerlo manualmente
Me he hecho la misma pregunta, si has encontrado algo, por favor, no dudes en compartirlo, gracias.
Hola buenas, a mí me interesa también si has encontrado algo 😊
muy muy bueno
muy bueno,gracias
Sos mi idolo ❤ tus videos son excelente!!!
Muchísimas gracias por el apoyo!! Se agradece mucho 😁💪🏻
Excelente video, este y el de bash me han parecido increíbles, muy buen contenido bro
Muchas gracias!! Se hace lo que se puede 😁💪🏻
Muy bueno.
Comparto que si no tienen la pagina de peliculas en ingles es posible que no encuentren el /entry/ y les aparezca otro valor y a la hora de imprimir maquinas_repetidas no les saldra .
deben tener la pagina en ingles y ahi si aparece el /entry/
que epico con musica de minecraft de fondo xd IDOLO
muy buen video, ¿como se puede automatizar y pasar de pagina en pagina y obtenga los títulos. al final obtenerlos todos. gracias.
Hola, ¿ cómo se consulta las páginas 2 en adelante?
tengo una pregunta, si quiero publicar esos datos extraídos de la pagina web en tiempo real y publicarlas en otra pagina web q yo cree y q se actualice cada 1hs, es necesario almacenar los datos en una base de datos ?
Gracias. Muy útil
Muchísimas gracias por el apoyo!! 😁💪🏻
Saludos: gracias por tus aportes muy buenos y bien explicado.
Si es posible que puedas hacer un Vidio donde explique: Existe una página web que contiene los resultados de sorteo de rifas los miércoles y sábados. Quisiera poder leer esa página y sacar los resultados de los últimos 6 sorteos apartir de la consulta del usuario. Y que imprima en pantalla los resultados de los numeros ganadores indicándome las fecha de cada uno.
cual es la pagina ?
Buenas, quisiera saber como hacer para crear algo automático que entre a una página y recoja datos que van saliendo, supongamos que en una página van saliendo números y el "bot" vaya guardando esos números que van saliendo y este automáticamente hasta que se cierre
Que bueno!!!, tengo una duda que no he podido solucionar, quiero tener en un archivo de texto plano todas las url de un dominio (website), lo hago con un wget (en linux y funciona perfecto) pero me encontré con un botón js que un usuario normal, da clic y muestra más enlaces, pero con mi comando no funciona, puedes mostrarme o enseñarme como hacerlo.
Gracias de antemano
Al poner print a lo que seria maquinas repetidas no me aparece nada, y la pagina q estoy usando no tiene el entry 😢
me dan error los import, y no me aparece alguna ayuda para instalar
Que hago si al momento de ver el codigo desde el inspector me aparece el elemento con su respectiva clase y ids, pero cuando intento acceder con beatiful soup me aparece None, y miro en el codigo fuente presionando (CTRL+U) y ahi no me aparece ese elemento, entonces supongo que por eso el beatiful soup response None
Qué podria hacer ahi?
ya no esta funcionando import request :C
Si funciona Man, chance no la tienes instalada
Ve a CDM y escribe "pip install requests"
Si no pasa nada chance tampoco tienes instalado "pip" y vas a tener que agregar las rutas de python y pip a la variable de entorno
Cualquier cosa respondes y te ayudo
Igual es requests con s al final yo no puse la s y también me daba error y si tenía instalada la librería
grande excelente video
Muchas gracias por el apoyo!!
@@ElPinguinoDeMario como hago en el minuto 2:52 dijiste ejecutarlo, donde? o como ? ahi video? me amas?
Muy buen video 👌👌
Muchas gracias por el apoyo!! 😁
Como sería entrar a una página web de mis tarjetas de visa. Entrar y extraer archivos de excel
Sirve para sacar datos de un casino online?
una pregunta como abro esa terminal
pregunta como saco esa ventanita que el usa para ejecutar el codigo
Hola!! Clic derecho sobre el código das en ejecutar en una ventana interactiva 💪🏻
from colorama import Fore
ModuleNotFoundError: No module named 'colorama' porque me sale asi :(
Hola!! Debes hacer un pip install colorama desde el terminal 👍🏻
@@ElPinguinoDeMario pero ya está instalado probé hasta cambiar de python ;(
👏👍
Muchas gracias!! 💪🏻
"Detestar" o "Detectar" ?????
como hago para obtener por ejemplo el contenido de un div
ejemplo quiero obtener el contenido de una etiqueta en este casi un zapato que esta asi 10.89$
como hago para obtener el precio
Buenas! Puedes hacerlo de una forma parecida a la del vídeo, utilizando la librería re y con expresiones regulares ir filtrando la información hasta llegar al precio 👍🏻
Alguien sabe como mandar lo obtenido con el Web Scraping a mi pagina HTML ¿?
pudiste hacerlo?
Si @@vjfr255
si
Se puede hacer un script para extraer solo las preguntas importantes y desechar las preguntas tontillas
jajajajaja
los pasos siempre son los mismos ?
Depende de la web 😋
Bro una pregunta para aprender programar se nesecita el inglesh me respondes porfa 😢
Yo te diría que no es necesario. A fuerza de utilizar la sintaxis te la vas aprendiendo. Saludos.
@@BlueTeamBorja gracias mi bro te lo agradesco mucho
@@BlueTeamBorja Nuevo seguidor
Yo pienso lo mismo que borhacking, con saber un poco inglés escrito ya de sobra 😁
@@Fredix2019 Gracias. Ya empezaré a subir alguna cosa.
Busco como hacerlo por ejemplo en mi cuenta de banco que tienenhasta kaptcja de numeros y letras ybextraer informacion de mi cta bancaria. Y no veo algun video con eso
Hola
Soy yo, o esto ya lo he vivido🤔
Jaja casi, el otro vídeo era hacer esto mismo con bash, y ahora con Python 😁
@@ElPinguinoDeMario aaaaamigo mio