Quer aprender mais sobre webscraping? Link para curso com 70 aulas e mais de 12 horas de conteúdo. hotm.art/scrapy - Cupom 50% de desconto PROGNAPRATICA
Rapaz... vc não me deu uma luz, deu um farol inteiro para poder começar a trabalhar com o Scrapy!! Tô ansioso pelo seu curso man!! A hora que publicar sou o primeiro a ir debulhar kkkk vc explica de uma maneira bem simples mas direta! Tem muito vídeo por aí que só "enrola"! Parabéns e manda ver aí no canal que já tô inscrito e querendo ver mais hahahaha!!! Parabéns professor! :D
Nossa cara, incrível kaka, eu baixo a página do produto inteira, usando c# e filtrando com umas funções próprias. O meu demora umas 2 horas, pra baixar uns 3000 produtos(só com 1 threads pra não tomar acesso negado)
Ele é realmente mais prático e genérico que as gambiarras que eu fiz, porém em questão de performance acaba sendo a mesma, o problema está em ter que acessar e baixar a página inteira de cada produto. Fiz um benchmark e os resultados foram similares, queria uma forma de baixar somente os dados necessários, mas fazer oque.
Fala Leandro. Scrapy é fenomenal. Vou lançar um vídeo sobre como fazer um monitor de preços simples integrado com banco de dados (usando requests) e se o vídeo for bem faço outro com scrapy.
Tem como fazer algum script que fica camperando uma promoção de um celular especifico, tipo s24 ultra em loop infinitamente até ela aparecer e me notificar de alguma forma? (o objetivo é ser um dos primeiro a conseguir comprar, pq normalmente a promoção dura pouquissimo tempo)
Salve dragao guerreiro da programacao, entao mano vc viu que eles deixaram tipos diferente pras ofertas? class="promotion-item max essas classes variam o max pra "avg" "sup" ou "max", sabe como posso colocar os 3? pra ele ja coletar tudo de uma vez
Excelente vídeo, estou aprendendo muito fuçando nisso. Mas quero pegar itens de uma categoria específica e não estou conseguindo, quando coloco o link da página já filtrada ele retorna uma página com os seis produtos mais vendidos e as principais buscas, fui indo pelo Scrapy Shell fazendo os Requests dos links usando xpath mas ele cai nessa mesma tela.
Fala Rafael, blz? Recomendo que dê uma olhada nos outros vídeos de webscraping que tem aqui no canal que algum pode te dar uma ideia. Qualquer coisa, avisa
ótimo video e otima explicação também, no documento do output, nao teria como formatar de um jeito que ficasse mais fácil de visualizar? Deixando cada produto com seu bloco e tals?
@@prognapratica oque tu faz quando a pagina usa java script existe uma forma de "burlar" isso? eu vi que a lib youtube-search-python faz pesquisa mesmo o youtube utilizando javascript para carregar as pesquisa faz um vídeo sobre haha
Marcel, eles usam o sistema de busca do youtube mesmo usando a própria urllib. Eu fiz um site assim para usar a própria forma de pesquisa do youtube. dá uma olhada. ytbsearch.herokuapp.com. depois posso fazer um vídeo explicando como fazer pesquisa no google e youtube. vou anotar aqui!
Fala Caio. Cara, o LinkedIn é mestre em evitar raspagem de dados. Cheio de CAPTCHA, eles também banem o usuário, então essa abordagem não funcionaria. A abordagem do vídeo serve apenas para alguns tipos de sites. Cada site tem uma forma de fazer o web scraping.
Olá! Fiz conforme a aula, mas estou com o erro: INFO: Ignoring response 403. Configurei o User Agent, ROBOTSTXT_OBEY = False e #AUTOTHROTTLE_ENABLED = True. Pode me ajudar?
Parabéns pelo canal e conteúdos! Poderia me tirar um dúvida, quando você pega o link do anúncio, teria uma forma de abrir o anuncio um a um e ir pegando dados que estarão nesses páginas, por ex valor do frete vai estar na página do produto.. depois voltar para o for e prosseguir . Resumindo, existe uma forma melhor de pegar todas as ofertas e conseguir extrair dados que estarão dentro da pagina daquela oferta, usando esse exemplo que você demonstrou? Obrigado
Tem como Sim. A solução é para.cada link que extrair, fazer uma nova requisição. A parte do frete é um pouco mais complexa: tem que injetar nos cookies para que funcione.
@@prognapratica o frete dei como exemplo... poderia ser qualquer dado estático outra página, a dúvida é mesmo como andar nesse for e ir essas páginas de cada oferta. Tem algum exemplo no canal disso? Outra dúvida, você daria aulas sobre esses assuntos. Muito obrigado!
@@prognapratica isso, gostaria de aprender a usar algumas ferramentas corretamente, sou iniciante em python, mas já programei bastante tempo em Delphi.
Quando acesso uma página, ela tem um load de carregamento de informação. tem como eu colocar um delay para começar a raspagem de dados? Me parece que são requisições ajax que acontece na lista, também a url não altera, então tenho quase certeza que seja ajax.
Se for Ajax ou vc pega e faz webscraping da api direto acessando o Json da resposta do Ajax ou carrega com scrapy+ Selenium ou scrapy+ splash ou só Selenium
@@prognapratica no caso do site viva real, estou tentando com o splash mas ele não carrega direito...continua em pagina 2 (e repetindo todos os links de imovel). Pelo selenium, ele muda de pagina mas nao muda os imoveis. Então não estou conseguindo fazer o scrapping alem da pagina 1
Pedro, esses sites de imovel são complicados mesmo. Nem sempre é possível pegar todos os dados. Depois posta no pastebin o código que usou e coloca um link aqui.
Na verdade vc nem precisa de Splash ou Selenium. Dá pra fazer tudo com requests ou scrapy. Faça injeção nos request headers colocando o x-domain: www.vivareal.com.br
@@prognapratica Obrigado pela resposta rápida! Só vi hoje que tinha respondido! Coloquei em gist.github.com/pedro1407/85aa09faa85fd289e70e7cfb486656c7 comentei a linha que usa o lua script, mas deixei para ver que também não resolveu meu problema.
@@prognapratica não entendi. Quero pegar o numero de vendas. Pra isso, tenho que entrar no link do anuncio e pegar a classe e o span. Esses são a classe e o span, respectivamente, //div@class="ui-pdp-header__subtitle"]' //span[@calss="ui-pdp-subtitle"]//text(). Se tiver como entregar mastigado ficaria muito grato. Sou um desastre na programação, vou ser obrigado a fazer uma mentoria cntg. Desde já, obrigado. Tmjjj
Fala Sauron. Tem que entender um pouco de html sim. Mas só o básico. O que são tags , , e um pouco de xpath também( uma maneira de navegar entre essas tags e acessar os valores)
Fala mestre, estou tentando seguir o seu tutorial, porém queria realizar ele dentro da aba de anúncios do painel do próprio vendedor. Tenho uma base de anúncios que precisava monitorar com uma frêquencia, porém eu to esbarrando na autenticação a todo momento. Como poderia burlar isso? Por se tratar de uma aba que necessitaria de um login teria como realizar o Scraping?
Fala nobre, desculpe a demora. Tem como sim. Uma opção seria: usar o selenium para gravar os cookies de autenticação ou o profile do usuário que fez login e utilizar isso nos outros acessos. A solução é: como o mercadolivre sabe que vc tá logado e que não precisa te autenticar ou confirmar o telefone/email?É por aí. O scrapy é bom para usar em projetos que demandem maior volume de dados, se é uma simples automação pode ir de selenium mesmo.
Fala, Tony, blz? Quando eu comecei a estudar scrapy sabia só o básico. Variáveis, loops, funções. Nem objetos sabia direito. Mas aprendi muito e por isso passei esse conhecimento da forma mais progressiva que eu pude. Pode testar lá, você vai ter acesso ao meu email, então poderá tirar dúvidas de qualquer aula ou tópico. Caso tenha alguma dificuldade, entra em contato comigo.
Consegui, muito obrigado. Vc tem mais conteúdos sobre scrapy? Tô tentando que ele envie o resultado por email...mas ainda não consegui Parabéns pelo video
Eu fiz o teste ontem no ML e pegou tudo corretamente e em ordem. Hoje não está pegando em ordem e aparecem alguns itens de páginas seguintes. Teste com página inicial. Tem ideia do por quê?
@@prognapratica Código idêntico ao seu. Se fosse ban acho que eu não conseguiria fazer mais nenhum tipo de conexão. Tirei a opção de todas as páginas pois não me interessa no momento. Continuei os testes só com a primeira página de ofertas. Aproveitando... Que comando usar exatamente pra pegar os links das imagens nesse caso?
@@prognapratica Eu até consegui referenciar o link e pegar, porém dá o mesmo resultado do primeiro item pra todo o restante da lista de produtos. Já tentei de várias maneiras. Tenho que estudar o framework certinho ainda.
Tem bastante tempo que mexi nessa página já. Devem ter alterado o site então. Mas a lógica é a mesma. Pega o xpath da próxima página e navega para ela. Para pegar a imagem , a mesma coisa, pega o xpath da imagem e acessa o atributo src.
@@prognapratica Mudaram o nome das classes só, que eu tinha corrigido. Não faz sentido eu ver tudo em ordem pelo inspecionar e na busca com Scrapy vir desordenado, a não ser que realmente fizeram uma detecção do bot e enviam dados adulterados pra requisição dele. Se isso for possível, aprender meios de evitar detecção é fundamental. Obrigado.
Tentei raspar os links da imagem do produto, me retorna uma lista de caracteres, e não o link, alguma sugestão para pegar a imagem do produto? e tambem uma duvida e sugestão (não encontrei nenhum tutorial nem video) ensinando a salvar os produtos no banco de dados, seja sqlite ou outro qualquer.
@@prognapratica Mas essa parte do link da imagem, não foi aplicado nesse codigo que você ensinou. foi um script que eu fiz, de acordo com os ensinamentos do seu video
pessoal, sou leigo na web dev. sou acadêmico e queria de alguma forma obter dos open source database as informações que preciso sobre a descrição dos artigos não sei como colocar o Google colab para analisar o ERIC Banco de dados sobre artigos que descrevam inteligência em artigos recentes de 5 anos pra hj alguém tem conhecimento de fazer isso?
Não entendi o que você quis dizer com "obter dos open source database" e também não entendi sobre a parte "analisar o ERIC banco de dados". Se conseguir ser mais claro, acho que fica mais fácil de ajudar.
é possível sim. tem um vídeo que mostra como fazer um buscador de preços aqui no canal. com as informações no banco de dados, basta sua página web requisitar os dados e disponibilizar
Bom demais! Existe uma forma de pegar os dados do cliente após a compra no mercado livre ? Como endereço de entrega, produto solicitado, formas de pagamento e etc
@@prognapratica Perfeito, fiz por uma api e esta indo, consegui fazer com que o produto e quantidade aparecerem, só com o valor que ainda estou com dificuldades, pois os valores são separados por span class="price-tag-fraction" span class="price-tag-cents" e não lembro como junta-los hahah Valeu pela resposta rapida, seu canal vem sempre me ajudando !
seu comentário não apareceu aqui, só no meu email. sobre o erro, provavelmente vc não alterou as setting.py. ou foi a parte do robots ou a parte do user agent.
@@BrDuduGamer tem sim. Uma das formas é usar um scheduler como o Apscheduler e usar o Twisted Scheduler, já que o scrapy é feito em cima do Twisted. Além disso vc precisa criar um script com um CrawlerProcess para rodar o scrapy. Meio complicado de explicar no texto mas o caminho é este.
Provavelmente vc terá que mudar de pasta com o cd nomedapasta e depois pode fazer um listdir para ver se está na pasta que contém o arquivo scapy.cfg. aí vc consegue usar o scrapy na linha de comando
Grato pela ajuda consegui resolver aquela outra questão porém agora aparece a mensagem ModuleNotFoundError: No module named 'mercadolivre'. Observei que na hora de entrar com scrapy genspider ml mercadolivre.com ele não fez o arquivo ml, aí eu fui direto na pasta e criei o arquivo, porém ele continua dando essa mensagem.
Kra, eu segui o codigo a risca, porem o scrapy so me devolve um item d kd pagina, a unica maneira d eu conseguir raspar tds os itens e se eu busca pela "ol" e n pela "li" Alguma ideia do q pod ser?
Parabéns! Muito bom o vídeo. A minha dúvida é se é ilegal fazer essa raspagem no site do mercado livre ou outro site. Exemplo: fazer raspagem de um resultado de pesquisa do Google.
Fala Vilson. ilegal não é. E mesmo que fosse, os dados da internet são públicos. Há alguns sites que tem na política de uso deles que você não pode raspar e o ideal é você respeitar. Porém, caso você precise das informações e o site não tenha uma API, não tem outra forma a não ser raspar os dados. Os sites tem políticas também para evitar. o próprio google , se você não fizer da forma certa, rapidamente bane seu IP. É isso!
@@prognapratica Opa! Valeu pela dica! Eu estava fazendo hoje um teste de raspagem em uma pesquisa do Google e recebi algumas msgs "indesejaveis" do Google reclamando da raspagem.🙁👍
@@skylucacius8463 e também pode tentar selecionar tudo e fazer a identação com a tecla tab ou clicar com o botão direito e escolher a opção formatar texto.
Muito bom o vídeo, você tem algum vídeo que eu consiga acesso ao conteúdo da minha conta no Mercado Livre. Já que para acessár a página tem login e senha. Obrigado.
E aí, tudo bem? Estou produzindo um curso no momento, mas envie a sua proposta e necessidade para o email prognapratica@gmail.com que conversamos por lá. Valeu!
Quer aprender mais sobre webscraping?
Link para curso com 70 aulas e mais de 12 horas de conteúdo.
hotm.art/scrapy - Cupom 50% de desconto PROGNAPRATICA
Finalmente alguém explicando sem enrolação
Muito legal. Estou aprendendo a utilizar o scrapy e consegui adaptar seu vídeo a minha necessidade. Muito obrigado mesmo!!
Muito bom. Pra quem tá começando ter um tutorial de ponto a ponto assim fica mais incrível ainda.
Valeu Mateus. Que bom que gostou!
@@prognapratica olá! Estou querendo monta um sistema usando a API do mercado livre. Como podemos conversar? Meu e-mail é breno@saratmodaindiana.com.br
Meus parabéns, amigo. Que vídeo, senhores, que vídeo!
Otima didática, boa explicação das tecnicas e das estruturas de dados aplicadas. Parabéns!
Vídeo perfeito! Parabéns pela didática.
Rapaz... vc não me deu uma luz, deu um farol inteiro para poder começar a trabalhar com o Scrapy!! Tô ansioso pelo seu curso man!! A hora que publicar sou o primeiro a ir debulhar kkkk vc explica de uma maneira bem simples mas direta! Tem muito vídeo por aí que só "enrola"! Parabéns e manda ver aí no canal que já tô inscrito e querendo ver mais hahahaha!!! Parabéns professor! :D
Hahah, Valeu Guilherme. Tô devendo o curso mesmo. Espero entregar antes do natal de presente pra vcs! Obrigado pelo feedback.
Nossa cara, incrível kaka, eu baixo a página do produto inteira, usando c# e filtrando com umas funções próprias.
O meu demora umas 2 horas, pra baixar uns 3000 produtos(só com 1 threads pra não tomar acesso negado)
Fala, Guilherme! Que bom que gostou. O scrapy é um framework incrível mesmo.
Ele é realmente mais prático e genérico que as gambiarras que eu fiz, porém em questão de performance acaba sendo a mesma, o problema está em ter que acessar e baixar a página inteira de cada produto.
Fiz um benchmark e os resultados foram similares, queria uma forma de baixar somente os dados necessários, mas fazer oque.
ótimo conteúdo, achei bem interessante a forma como utiliza o screpy. Eu já tinha ouvido falar, mas não imaginava que ele pudesse tão robusto assim.
Fala Leandro. Scrapy é fenomenal. Vou lançar um vídeo sobre como fazer um monitor de preços simples integrado com banco de dados (usando requests) e se o vídeo for bem faço outro com scrapy.
Simples e funcional
Perfeito! Ótima explicação e direta!
Me inscrevi neste canal maravilhoso mais rápido que uma bala!
Haha . Fala , Gustavo. Seja bem vindo!
Top, mas como eu faço pra pegar as vendas diárias de produtos usados abs.
Muito boa aula! Obrigado!
Tem como fazer algum script que fica camperando uma promoção de um celular especifico, tipo s24 ultra em loop
infinitamente até ela aparecer e me notificar de alguma forma? (o objetivo é ser um dos primeiro a conseguir comprar, pq normalmente a promoção dura pouquissimo tempo)
Cara, muito obrigado!!!
Salve dragao guerreiro da programacao, entao mano vc viu que eles deixaram tipos diferente pras ofertas?
class="promotion-item max essas classes variam o max pra "avg" "sup" ou "max", sabe como posso colocar os 3? pra ele ja coletar tudo de uma vez
fala man. para coletar tudo você poderia usar "| "no xpath , por exemplo: //li[@class="promotion-item avg"] | //li[@class="promotion-item sup"]
esta aparecendo o seguinte erro na hora de gerar o json: Object of type method is not JSON serializable
. Como posso resolver?
legal, mas queria pegar além desses dados do vídeo a descrição, avaliações e imagens dos produtos, mas não consigo
Parabéns! Muito bom o vídeo!!
Excelente vídeo, estou aprendendo muito fuçando nisso. Mas quero pegar itens de uma categoria específica e não estou conseguindo, quando coloco o link da página já filtrada ele retorna uma página com os seis produtos mais vendidos e as principais buscas, fui indo pelo Scrapy Shell fazendo os Requests dos links usando xpath mas ele cai nessa mesma tela.
Fala Rafael, blz? Recomendo que dê uma olhada nos outros vídeos de webscraping que tem aqui no canal que algum pode te dar uma ideia. Qualquer coisa, avisa
otimo video, ja configurei minha spider de varias formas, e só consigo varrer apenas duas paginas em qualquer site tem uma ideia do que seja?
sem ver o seu código, fica complicado. pode ser que a sua regra da próxima página esteja errada.
ótimo video e otima explicação também, no documento do output, nao teria como formatar de um jeito que ficasse mais fácil de visualizar? Deixando cada produto com seu bloco e tals?
Cria um .csv ao invés de .json
@@dnescodino sim, to dizendo criar de uma forma que fique em blocos mais visíveis
Muito bom !! Tá melhor q o selenium kkkk
Haha. Selenium só é útil em alguns poucos casos.
@@prognapratica oque tu faz quando a pagina usa java script existe uma forma de "burlar" isso? eu vi que a lib youtube-search-python faz pesquisa mesmo o youtube utilizando javascript para carregar as pesquisa faz um vídeo sobre haha
cara selenium é mt lento só uso como ultima opção
Marcel, eles usam o sistema de busca do youtube mesmo usando a própria urllib. Eu fiz um site assim para usar a própria forma de pesquisa do youtube. dá uma olhada. ytbsearch.herokuapp.com. depois posso fazer um vídeo explicando como fazer pesquisa no google e youtube. vou anotar aqui!
Excelente video. Venezuela
Gracias!
Muito bom o vídeo. É possível usar essa mesma lógica para fazer web scraping de profiles no linkedin?
Fala Caio. Cara, o LinkedIn é mestre em evitar raspagem de dados. Cheio de CAPTCHA, eles também banem o usuário, então essa abordagem não funcionaria. A abordagem do vídeo serve apenas para alguns tipos de sites. Cada site tem uma forma de fazer o web scraping.
Olá! Fiz conforme a aula, mas estou com o erro: INFO: Ignoring response 403. Configurei o User Agent, ROBOTSTXT_OBEY = False e #AUTOTHROTTLE_ENABLED = True. Pode me ajudar?
Oi Aline. Cola o código em um gist e manda o link aqui. talvez tenha faltado o user agent
github.com/Allineredfox/scrapy-ml/blob/main/ml
apareceu 404 aqui. está público?
caso não consiga, poste no pastebin.ubuntu.com/
Colei várias vezes os links aqui, mas parece que o RUclips está retirando.
pastebin.ubuntu.com/p/fyN2hSvg68/
pastebin.ubuntu.com/p/rvM8JfX48S/
Parabéns pelo canal e conteúdos! Poderia me tirar um dúvida, quando você pega o link do anúncio, teria uma forma de abrir o anuncio um a um e ir pegando dados que estarão nesses páginas, por ex valor do frete vai estar na página do produto.. depois voltar para o for e prosseguir .
Resumindo, existe uma forma melhor de pegar todas as ofertas e conseguir extrair dados que estarão dentro da pagina daquela oferta, usando esse exemplo que você demonstrou?
Obrigado
Tem como Sim. A solução é para.cada link que extrair, fazer uma nova requisição. A parte do frete é um pouco mais complexa: tem que injetar nos cookies para que funcione.
@@prognapratica o frete dei como exemplo... poderia ser qualquer dado estático outra página, a dúvida é mesmo como andar nesse for e ir essas páginas de cada oferta. Tem algum exemplo no canal disso? Outra dúvida, você daria aulas sobre esses assuntos. Muito obrigado!
@@jslima1976 então. É que o frete não é estático. É dinâmico.
@@jslima1976 aula particular,vc diz?
@@prognapratica isso, gostaria de aprender a usar algumas ferramentas corretamente, sou iniciante em python, mas já programei bastante tempo em Delphi.
Quando acesso uma página, ela tem um load de carregamento de informação. tem como eu colocar um delay para começar a raspagem de dados? Me parece que são requisições ajax que acontece na lista, também a url não altera, então tenho quase certeza que seja ajax.
Se for Ajax ou vc pega e faz webscraping da api direto acessando o Json da resposta do Ajax ou carrega com scrapy+ Selenium ou scrapy+ splash ou só Selenium
@@prognapratica no caso do site viva real, estou tentando com o splash mas ele não carrega direito...continua em pagina 2 (e repetindo todos os links de imovel). Pelo selenium, ele muda de pagina mas nao muda os imoveis. Então não estou conseguindo fazer o scrapping alem da pagina 1
Pedro, esses sites de imovel são complicados mesmo. Nem sempre é possível pegar todos os dados. Depois posta no pastebin o código que usou e coloca um link aqui.
Na verdade vc nem precisa de Splash ou Selenium. Dá pra fazer tudo com requests ou scrapy. Faça injeção nos request headers colocando o x-domain: www.vivareal.com.br
@@prognapratica Obrigado pela resposta rápida! Só vi hoje que tinha respondido! Coloquei em
gist.github.com/pedro1407/85aa09faa85fd289e70e7cfb486656c7 comentei a linha que usa o lua script, mas deixei para ver que também não resolveu meu problema.
Muito bom ! E se eu quiser detalhes de cada produto, abrindo a pag individual de cada um como eu faço ?
Basta você fazer um yield scrapy.Request(Linkdoproduto, callback=outra função)
conseguiu fazer irmão?
@@prognapratica não entendi. Quero pegar o numero de vendas. Pra isso, tenho que entrar no link do anuncio e pegar a classe e o span. Esses são a classe e o span, respectivamente, //div@class="ui-pdp-header__subtitle"]' //span[@calss="ui-pdp-subtitle"]//text(). Se tiver como entregar mastigado ficaria muito grato. Sou um desastre na programação, vou ser obrigado a fazer uma mentoria cntg. Desde já, obrigado. Tmjjj
@@arthurparis6001 manda um link do produto para eu testar
@@arthurparis6001 Pior que não, sou bem nub cara, vcs tem um grupo do zap ?
Como faço para deixar ele raspar de tempos em tempos exemplo a cada 2 horas atualizar os dados?
Tem isso no vídeo do webscraping com python e requests.
É preciso saber HTLM pra fazer esses spiders no scrapy? ou só o python ?
Fala Sauron. Tem que entender um pouco de html sim. Mas só o básico. O que são tags , , e um pouco de xpath também( uma maneira de navegar entre essas tags e acessar os valores)
Muito bom.
Fala mestre, estou tentando seguir o seu tutorial, porém queria realizar ele dentro da aba de anúncios do painel do próprio vendedor. Tenho uma base de anúncios que precisava monitorar com uma frêquencia, porém eu to esbarrando na autenticação a todo momento. Como poderia burlar isso? Por se tratar de uma aba que necessitaria de um login teria como realizar o Scraping?
Fala nobre, desculpe a demora. Tem como sim. Uma opção seria: usar o selenium para gravar os cookies de autenticação ou o profile do usuário que fez login e utilizar isso nos outros acessos. A solução é: como o mercadolivre sabe que vc tá logado e que não precisa te autenticar ou confirmar o telefone/email?É por aí. O scrapy é bom para usar em projetos que demandem maior volume de dados, se é uma simples automação pode ir de selenium mesmo.
Cara que vídeo bom.
O Ponto é que não retornou nenhum item. Poderia me ajudar?
Fala Willian. Rodei o script aqui e ainda está funcionando. Veja o vídeo outra vez, fique ligado nas identações dos loops e nos xpaths.
Mano eu sei o basico de programação em phyton , mas se eu comprar seu curso eu consigo ficar bom mesmo so tendo o basico ?
Fala, Tony, blz? Quando eu comecei a estudar scrapy sabia só o básico. Variáveis, loops, funções. Nem objetos sabia direito. Mas aprendi muito e por isso passei esse conhecimento da forma mais progressiva que eu pude. Pode testar lá, você vai ter acesso ao meu email, então poderá tirar dúvidas de qualquer aula ou tópico. Caso tenha alguma dificuldade, entra em contato comigo.
o site ta bloqueando........nao consigo usar o scrapy shell, alguem sabe como resolver?
aqui ta normal. vc alterou o user agent e o robots ?
Consegui, muito obrigado.
Vc tem mais conteúdos sobre scrapy?
Tô tentando que ele envie o resultado por email...mas ainda não consegui
Parabéns pelo video
Eu fiz o teste ontem no ML e pegou tudo corretamente e em ordem. Hoje não está pegando em ordem e aparecem alguns itens de páginas seguintes. Teste com página inicial. Tem ideia do por quê?
Provavelmente ou o mercado livre baniu seu IP ou a sua regra de próxima página não é válida. Tem que dar uma olhada nos erros.
@@prognapratica Código idêntico ao seu. Se fosse ban acho que eu não conseguiria fazer mais nenhum tipo de conexão. Tirei a opção de todas as páginas pois não me interessa no momento. Continuei os testes só com a primeira página de ofertas. Aproveitando... Que comando usar exatamente pra pegar os links das imagens nesse caso?
@@prognapratica Eu até consegui referenciar o link e pegar, porém dá o mesmo resultado do primeiro item pra todo o restante da lista de produtos. Já tentei de várias maneiras. Tenho que estudar o framework certinho ainda.
Tem bastante tempo que mexi nessa página já. Devem ter alterado o site então. Mas a lógica é a mesma. Pega o xpath da próxima página e navega para ela. Para pegar a imagem , a mesma coisa, pega o xpath da imagem e acessa o atributo src.
@@prognapratica Mudaram o nome das classes só, que eu tinha corrigido. Não faz sentido eu ver tudo em ordem pelo inspecionar e na busca com Scrapy vir desordenado, a não ser que realmente fizeram uma detecção do bot e enviam dados adulterados pra requisição dele. Se isso for possível, aprender meios de evitar detecção é fundamental. Obrigado.
Tentei raspar os links da imagem do produto, me retorna uma lista de caracteres, e não o link, alguma sugestão para pegar a imagem do produto? e tambem uma duvida e sugestão (não encontrei nenhum tutorial nem video) ensinando a salvar os produtos no banco de dados, seja sqlite ou outro qualquer.
Fala Willian. Vc usou o mesmo código deste vídeo? Talvez tenha faltado algum detalhe. Mande o link do código colado no paste bin para dar uma olhada.
Sobre banco de dados, vc pode ver o vídeo que eu ensino a fazer um monitor de preços e lá mostro como guardar os dados no mongodb usando requests
ruclips.net/video/lZHtscVnuo4/видео.html
@@prognapratica Mas essa parte do link da imagem, não foi aplicado nesse codigo que você ensinou. foi um script que eu fiz, de acordo com os ensinamentos do seu video
Ah, verdade. Coloca no pastebin E cola o link aqui que eu dou uma olhada para ver se faltou algo
pessoal, sou leigo na web dev. sou acadêmico e queria de alguma forma obter dos open source database as informações que preciso sobre a descrição dos artigos
não sei como colocar o Google colab para analisar o ERIC Banco de dados sobre artigos que descrevam inteligência em artigos recentes de 5 anos pra hj
alguém tem conhecimento de fazer isso?
Não entendi o que você quis dizer com "obter dos open source database" e também não entendi sobre a parte "analisar o ERIC banco de dados". Se conseguir ser mais claro, acho que fica mais fácil de ajudar.
OK. acabei de descobrir o que é esse ERIC database. Mas o que exatamente vc precisa de informação?
Olá, consigo pegar essas informações e disponibilizar em uma página HTML ?
é possível sim. tem um vídeo que mostra como fazer um buscador de preços aqui no canal. com as informações no banco de dados, basta sua página web requisitar os dados e disponibilizar
Bom demais!
Existe uma forma de pegar os dados do cliente após a compra no mercado livre ?
Como endereço de entrega, produto solicitado, formas de pagamento e etc
Dentro da sua conta? Acredito que sim, porém tem que ver se o mercado livre disponibiliza alguma api ou se é só com webscraping mesmo.
@@prognapratica Perfeito, fiz por uma api e esta indo, consegui fazer com que o produto e quantidade aparecerem, só com o valor que ainda estou com dificuldades, pois os valores são separados por span class="price-tag-fraction"
span class="price-tag-cents" e não lembro como junta-los hahah
Valeu pela resposta rapida, seu canal vem sempre me ajudando !
@@LucasRochaNZ usa um xpath para pegar a div que engloba essas spans e depois pega o //text. Aí quando tiver o valor vc faz um join.
Pergunta besta, como faz pra eascrever o caminho ali embaixo do console no navegador e mostrar o total de itens? aqui não aparece
Na hora de pesquisar no HTML? Ctrl+f
seu comentário não apareceu aqui, só no meu email. sobre o erro, provavelmente vc não alterou as setting.py. ou foi a parte do robots ou a parte do user agent.
@@prognapratica Que estranho, fiz 2 vezes o passo a passo certinho
Cola o código das settings e da spider no pastebin.com/ e manda o link aqui
Pq Eu acabei de testar aqui e deu certo. Ou cola todo o output do console também para ver se tem outro erro
tem como salvar esses dados em um banco de dados?
Tem sim. VocÊ precisa abrir a conexão na hora que a spider inicia o webscraping e fazer a inserção dos dados na etapa que processar os items.
@@prognapratica Obrigado! Outra pergunta, tem como criar um loop, ou seja executar o crawl a cada 60 min, por exemplo?
@@BrDuduGamer tem sim. Uma das formas é usar um scheduler como o Apscheduler e usar o Twisted Scheduler, já que o scrapy é feito em cima do Twisted. Além disso vc precisa criar um script com um CrawlerProcess para rodar o scrapy. Meio complicado de explicar no texto mas o caminho é este.
Não consigo realizar o comando scrapy startproject T2, aparece a mensagem [Errno 2] No such file or directory: 'T2\\scrapy.cfg',
Fala Junior. Vc tem que dar o comando na pasta em que está o scrapy.cfg
Provavelmente vc terá que mudar de pasta com o cd nomedapasta e depois pode fazer um listdir para ver se está na pasta que contém o arquivo scapy.cfg. aí vc consegue usar o scrapy na linha de comando
Grato pela ajuda consegui resolver aquela outra questão porém agora aparece a mensagem ModuleNotFoundError: No module named 'mercadolivre'. Observei que na hora de entrar com scrapy genspider ml mercadolivre.com ele não fez o arquivo ml, aí eu fui direto na pasta e criei o arquivo, porém ele continua dando essa mensagem.
Tenta refazer o passo a passo. O que pode ter ocorrido é de vc não ter criado a pasta spiders e ter colocado o arquivo ml na pasta errada
Vc tem que mudar a pasta antes de fazer o genspider
mano qual é esse programa que vc usa nao é o visual code ne?
Não. É o pycharm
@@prognapratica cara vc da mentoria
Encaminha um email para prognapratica@gmail.com com a sua demanda e orçamento e podemos conversar por lá.
Kra, eu segui o codigo a risca, porem o scrapy so me devolve um item d kd pagina, a unica maneira d eu conseguir raspar tds os itens e se eu busca pela "ol" e n pela "li"
Alguma ideia do q pod ser?
Posta o código em um gist
@@prognapratica pastebin.ubuntu.com/p/cZqSfDX4ZC/
o seu yield tem que ficar dentro do for loop. do jeito que está , está fora.
Sim, era isso msm, obg 👍
Parabéns! Muito bom o vídeo.
A minha dúvida é se é ilegal fazer essa raspagem no site do mercado livre ou outro site.
Exemplo: fazer raspagem de um resultado de pesquisa do Google.
Fala Vilson. ilegal não é. E mesmo que fosse, os dados da internet são públicos. Há alguns sites que tem na política de uso deles que você não pode raspar e o ideal é você respeitar. Porém, caso você precise das informações e o site não tenha uma API, não tem outra forma a não ser raspar os dados. Os sites tem políticas também para evitar. o próprio google , se você não fizer da forma certa, rapidamente bane seu IP. É isso!
@@prognapratica Opa! Valeu pela dica! Eu estava fazendo hoje um teste de raspagem em uma pesquisa do Google e recebi algumas msgs "indesejaveis" do Google reclamando da raspagem.🙁👍
@@vilsonoliveira5366Sim. No google você tem que alterar algumas variáveis para evitar tomar ban. Faz parte!
Como fez essa seleção múltipla em 3:40 ?
Clica segurando alt.
@@prognapratica ao colar, o texto fica sem a indentenção ... como resolver isso ?
@@skylucacius8463 ao invés de colar com ctrl+ v, clique com o botão direito e selecione colar sem formatação
@@skylucacius8463 e também pode tentar selecionar tudo e fazer a identação com a tecla tab ou clicar com o botão direito e escolher a opção formatar texto.
Muito bom o vídeo, você tem algum vídeo que eu consiga acesso ao conteúdo da minha conta no Mercado Livre. Já que para acessár a página tem login e senha. Obrigado.
Ronaldo.nao tentei ainda. Acredito que seja possível.
Boa tarde amigo, tudo bem? Gostaria de entrar em contato com você, tenho um projeto para ser executado e creio que vc possa me ajudar.
Boa tarde, Guilherme. Envie os requerimentos para o email prognapratica@gmail.com que eu vejo se posso atendê-lo.
quer desenvolver um projeto pra mim? pago salario por mes
E aí, tudo bem? Estou produzindo um curso no momento, mas envie a sua proposta e necessidade para o email prognapratica@gmail.com que conversamos por lá. Valeu!
@@prognapratica poderia me passa um instagram ou algo do tipo? facilitaria muito