webscraping com python - 5000 itens OLX com scrapy e python em 5 minutos.

Programação na Prática

Просмотров 11 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 3 дек 2024

Комментарии • 83

@rodrigofonseca9066 9 месяцев назад
Cara, tu me ajudou de mais. Obrigado!!
@glauberferreira3729 Год назад
Caraca, nem terminei o vídeo ainda, e já curti a sua didática... ganhou mais um inscrito
@prognapratica Год назад
Fala, Glauber. Bem vindo!
@DIEGO93176 Год назад
Voce é fera amigo. To aprendendo muito
@opaidosconcursos Год назад ⁺²
Excelente vídeo, parabéns.
Depois poderiam fazer um mostrando sites com login.
@prognapratica Год назад ⁺¹
Valeu pelo feedback. Sobre o login, depende muito do site, Bruno. Tem várias estratégias para fazer login mesmo.
@wellingtonsantiago-pt8mv Год назад
voce mostra mt carinho mano, no que ensina, +1 inscrito
@prognapratica Год назад
Valeu
@rogeriomaximo Год назад
2 kkkkk
@dek4dron 7 месяцев назад ⁺¹
carai.. meu sonho era ficar top nestas linguagens de programação .. mas toquei a vida por outro caminho ..
vou estudando aos poucos por hobby mesmo
@DieeghoBr Год назад ⁺¹
Show❤
@_____ian_____ 9 месяцев назад ⁺¹¹
Não funciona mais (em Fev/2024). Retorna erro 403
@noletovictor 8 месяцев назад
Eles mudaram alguma coisa na segurança deles, tá foda burlar... se alguém por acaso conseguir, avisa aqui.
@edmilson1976 8 месяцев назад
Video de scraping com mais de 6 meses, ja existe um serio risco do código estar obsoleto pois o site passou a barrar a requisição… conheço muito pouco scraping, comecei com BS4, mas achei a tecnologia um pouco fragil
@HARDCODEDMC 7 месяцев назад
@@edmilson1976 to usando a requests. Ate funcionar se nao tentar usar no modo headless
@Treviz 4 месяца назад ⁺²
Programação é lógica. Não adianta vir aqui tentando copiar e colar
@_____ian_____ 4 месяца назад
@@Treviz provavelmente você é iniciante, né? O que mais tem no mundo do desenvolvimento é cópia de trechos de código pronto.
@FabioRBelotto Год назад
Muito interessante a forma como voce fez.
Sobre webscrapping como um todo, o que você diz sobre selenium e beautiful soup?
@prognapratica Год назад ⁺¹
Fala Fábio. São outras ferramentas. Selenium é ideal somente quando não dá pra fazer requisição usando request puro. Beautifulsoup cumpre o trabalho mas o parsel ou lxml são bem mais flexíveis e poderosos.
@PEDRIQUES_site 4 месяца назад
Muito bacana! Já tentou algo parecido no site do QuintoAndar ?
@prognapratica 4 месяца назад
Não fiz não, mas parece ser possível.
@LuizSouzasp Год назад
A partir do minuto 4:18 extrai via request, selector e visualiza o resultado delas antes de partir para o scrapy, da pra fazer isso no vs code?
@prognapratica Год назад
Ah, você fala de ter aquele preview das variáveis ali no canto direito do console?
@prognapratica Год назад ⁺¹
Coloquei no vídeo novo
@LuizSouzasp Год назад
@@prognapratica isso mesmo, é um ótimo recurso, no pycharm é bem prático.
@lebersa Год назад
Muito bom o conteudo!!
Alguem conhece algum video ou conteudo que mostre tecnicas de como usar selenium e nao ser identificado como bot?
@prognapratica Год назад
Essas técnicas variam de site para site. tem que sabe primeiro como o site identifica. pode ser via headers, proxies, footprint do selenium ou do chromedriver, pode ser que esteja fazendo muitas requisições por segundo, captcha, etc.. a lista vai longe.
@thaisjustino8174 10 месяцев назад
Olá! Sua didática é muito boa, obrigada pelo conteúdo.
Estou tentando agora em 02 fev. 2024 e o erro que estou enfrentando é: 403 Acesso proibido.
@_____ian_____ 9 месяцев назад
Mesma coisa aqui
@HARDCODEDMC 7 месяцев назад
@@_____ian_____ o site ta usando o servico da cloudfare pra bloquear
@rodouphosousadsilva Год назад
faz um extraindo os dados e transformando em excel por favor @programação na pratica
@prognapratica Год назад
Fala rodoupho. Dá uma olhada nos vídeos do canal. Tem um com a thumb de Excel.
@HARDCODEDMC 7 месяцев назад ⁺¹
para quem esta tentando a olx esta bloqeuando as requisicoes do modo headless pela cloudfare
@LuizSouzasp Год назад
estou refazendo esse case incluindo os detalhes como condomínio, metragem.... que está num nível abaixo.
@marcosbrolio Год назад
qdo dou o comando .get() nos 7:50 so retorna "'{"props":{"pageProps":{},"__N_SSG":true},"page":"/u/[" - nao vem a pagina toda
@prognapratica Год назад ⁺¹
Sim, o selector foi criado para pegar o conteúdo do xpath. Se quiser a página toda precisa passar o texto do resultado da requisição para o parsel.
@ffcgomes Год назад
Bom dia. Gostei muito da ferramenta scrapy. Rodei seu código sem problema para o olx. Tentei com o zapimoveis e também funcionou, porém dos 100 registros (carregados dinamicamente) da página apenas 15 foram obtidos. Pode me ajudar a fazer com que carregue todos os registros?
@prognapratica Год назад
Bom dia, Flávio. Neste caso tem que estudar o site e enteder como funciona para consegui extrair.
@ffcgomes Год назад
Isso. Mas não sei por onde começar. Pode me ajudar ?
@prognapratica Год назад
@@ffcgomes Flávio, posso sim: dá uma olhada nos vídeos do site, porque alguns deles abordam outras formas de fazer webscraping. basicamente você precisa explorar o site, tentar ver o html ou interceptar as requisições xhr que o site faz, etc. tem o início do curso de scrapy também com 1 hora de duração. talvez alguma dessas fontes te ajudem. Também tem as docs do scrapy em docs.scrapy.org/en/latest/.
@luiskys-ImoveisSP 4 дня назад
eu sou corretor de imoveis, ao puxar estes dados no olx, é possivel segmentar com o filtro "proprietário", selecionar sao paulo, ou o bairro, e fazer a automação abrir cada chat para captar o numero de telefone do criador do anuncio?
@prognapratica 3 дня назад
se o dado for público e estiver no html, deve ser possível
@jaquelinedasilvabelletti7406 Год назад
Estou tentando fazer o webscraping onde o resultado da busca são outras páginas, e é o conteúdo dessas outras páginas que eu preciso extrair. Na maioria dos tutoriais que vejo os códigos até percorrem várias páginas de conteúdo, mas extraem apenas informações dessas páginas percorridas, sem abrir os links.
@prognapratica Год назад
Oi Jaqueline. Tá se referindo a qual site? Nao entendi muito bem. Se quer extrair de outras páginas tem que fazer uma requisição para cada uma delas também.
@JoelR-n3p Год назад
Professor, estava fazendo webscraping na Kabum, mas a forma do json é diferente, ela tem props, e pageProps, mas no do senhor, nos 'ads', tem todos os itens, mas na da Kabum fica somente uma variável de texto gigantesca, chamada 'data', tem como contornar isso?
@prognapratica Год назад
Nunca fiz no site do Kabum , mas se tem lá é porque dá. Pode transformar o texto em um dicionário , por exemplo, ou pode navegar no objeto para extrair os dados mesmo.
@JoelR-n3p Год назад
@@prognapratica Fiz exatamente isso professor, pedi pro python fazer mais um json.loads na variável de texto e funcionou
@IgorSandini Год назад
Otimo video, mas gostaria de saber como faço pra extrair informações como vagas na garagem, condominio etc... porque tentei e nao consegui.
@prognapratica Год назад
Fala Igor. Tem que descobrir duas coisas. Primeiro é se essa informação aparece sem o javascript. A segunda é fuçar e descobrir qual xpath ou seletor você precisa extrair as informações
@Olavo_Carvalho 9 месяцев назад
no curso abordar colocar isso em produção? essa é minha maior duvida de como deixar uma rotina pronta pra buscar todo dias sabe
@prognapratica 9 месяцев назад
Fala Olavo. Abordo sim, nas últimas aulas. O que tem no curso é como colocar elas em servidor para serem agendadas via http. Mas se você quiser colocar para ela rodar a cada x horas, por exemplo, só pedir lá que eu acrescento essa aula.
@fredericocorreialimacoelho3411 10 месяцев назад
qual console você usa?
@prognapratica 10 месяцев назад
acho que nesse vídeo tava usando emacs.
@gmsarti 10 месяцев назад
Gostei muito do vídeo! Fiquei curioso pra ver o curso no hotmart. Mas cara, tentei executar o código mesmo com o _request_ e parece que a OLX está bloqueando. Mexi nos user agents e nada... Ele dá um retorno falando que é pra se proteger de DDoS. Sabe como tentar passar por isso?
@prognapratica 10 месяцев назад ⁺¹
O ruim de fazer vídeos sobre isso é que logo logo bloqueiam e temos que buscar outra solução. Eles estão usando o cloudfare e por isso tá bloqueando o acesso. Teria que testar com proxy, plugins para o cloudfare ou selenium.
@gmsarti 10 месяцев назад
@@prognapratica é do jogo cara... fazer crawler tem dessas mesmo. de qualquer forma gostei muito do teu conteúdo cara, parabéns d+
@juniorcezar0909 Год назад
Eu tenho um site de filmes e to tentando me aprofundar em webscraping, porém ainda to meio perdido. Indicaria um tutorial que eu faria essa mesma função mas colocaria os filmes de outros sites no meu ? Obs: eu uso a função embed.
@prognapratica Год назад
Pelo que entendi vc precisa pegar os links, salvar e quando for carregar o html , carregar com os links. Desta forma que falou ficou vago. Que função embed você está se referindo?
@rodouphosousadsilva Год назад
o cara respodne comentarios em dia, que foda, vou fazer um trabalho final sobre webscraping no senai e vc ta me ajudando mt valeu! tem discord?
@prognapratica Год назад
Opa..boa sorte no seu trabalho. Se tiver algum conteúdo que te ajude me fala que eu tento gravar aqui. Não tenho canal no discord ainda. Aqui o canal ainda é muito pequeno
@smuggy8576 Год назад
Oi. Assisti o video seu de scrap do Mercado Livre mas encontrei um problema. Quando eu entro pelo navegador tem 13 paginas mas o scrap só retorna 3. Ja tentei usar o DOWNLOAD_DELAY = 2 e nada.
@prognapratica Год назад ⁺¹
Mudou o user agent? Manda o link do código que usou. Pode ser no pastebin
@cimbriel Год назад
Você dá aula particular?
procuro mentoria, não curso gravado.
@prognapratica Год назад
Dou sim. Manda um email para prognapratica@gmail.com com as suas dúvidas e te respondo por lá.
@julianacornacchioni7842 9 месяцев назад
Oi gente, tudo bem? Estou tentando pegar algumas informações que estão dentro de "properties", como o "size". Tentei fazer: "area": houses.get("properties").get("size"), mas não funcionou. Alguem poderia me ajudar a selecionar isso?
@prognapratica 8 месяцев назад
E aí, Juliana, conseguiu?
@andsoalvesbr Год назад
Primeiro parabens pelo video!
poderia me tirar uma duvida ?
mesmo o codigo do pastebin esta dando 403, tentei trocar o user agent tbm mas nao rolou... mas rodando no console do python com a r = request ele consegue puxar e trazer 200 sabe o que pode ser ?
@prognapratica Год назад ⁺¹
Anderson, verifique se o user agent tá com a maneira correta de escrever. Além disso , pode reduzir a quantidade de requisições concorrentes, habilitar o autothrottle e mexer no download delay também. Tenta uma coisa de cada vez.
@andsoalvesbr 11 месяцев назад
voltei a tentar hoje, e nada feito .. tentei todas as opções comentadas acima.. nem com gpt e acrescentando outras apenas recebo 403.@@prognapratica
@prognapratica 11 месяцев назад ⁺¹
Cadê o código?
@thaisjustino8174 10 месяцев назад ⁺¹
@@andsoalvesbr você conseguiu? Te pergunto, porque estou tentando (02/02/2024) e estou enfrentando o mesmo problema que você.
@hugomelodf 9 месяцев назад
Mesmo problema aqui. Tentei rotating proxies, fake user-agent, download delay e nada.
@brxdavidcloss 6 месяцев назад
to fazendo um site que nada disso funciona, retorna as funções e nao os dados
@ademirvasco4032 3 месяца назад
comigo só da código 403. triste.....
@prognapratica 3 месяца назад
Da uma olhada que no canal tem um vídeo falando disso =]
@jaquelinedasilvabelletti7406 Год назад
To padecendo, se puder ajudar agradeço muito. Já procurei ajuda em outros idomas mas todos os tutoriais são semelhantes
@prognapratica Год назад
Dá uma olhada no vídeo básico do curso de scrapy que tem aqui no canal.
@code_masters3621 Год назад
fala professor blz.
professor esse json.loads pode ser um substituto para a biblioteca chompjs?
essa biblioteca esta dando muito problema ora não instala, as vezes não acha o nome (ModuleNotFoundError: No module named 'chompjs') e eu já verifiquei o nome varias vezes ja desinstalei e instalei varias vezes mais ta dificil rs...
@prognapratica Год назад
Fala code. São bibliotecas diferentes. A chompjs é para converter código javascript e o Json é para converter texto json em dicionário python. Manda lá no curso qual dificuldade para instalar que eu vou dar uma olhada.

Следующие

Автовоспроизведение

WEBSCRAPING COM SCRAPY E PYTHON PARA INICIANTES