Video de scraping com mais de 6 meses, ja existe um serio risco do código estar obsoleto pois o site passou a barrar a requisição… conheço muito pouco scraping, comecei com BS4, mas achei a tecnologia um pouco fragil
Fala Fábio. São outras ferramentas. Selenium é ideal somente quando não dá pra fazer requisição usando request puro. Beautifulsoup cumpre o trabalho mas o parsel ou lxml são bem mais flexíveis e poderosos.
Essas técnicas variam de site para site. tem que sabe primeiro como o site identifica. pode ser via headers, proxies, footprint do selenium ou do chromedriver, pode ser que esteja fazendo muitas requisições por segundo, captcha, etc.. a lista vai longe.
Bom dia. Gostei muito da ferramenta scrapy. Rodei seu código sem problema para o olx. Tentei com o zapimoveis e também funcionou, porém dos 100 registros (carregados dinamicamente) da página apenas 15 foram obtidos. Pode me ajudar a fazer com que carregue todos os registros?
@@ffcgomes Flávio, posso sim: dá uma olhada nos vídeos do site, porque alguns deles abordam outras formas de fazer webscraping. basicamente você precisa explorar o site, tentar ver o html ou interceptar as requisições xhr que o site faz, etc. tem o início do curso de scrapy também com 1 hora de duração. talvez alguma dessas fontes te ajudem. Também tem as docs do scrapy em docs.scrapy.org/en/latest/.
eu sou corretor de imoveis, ao puxar estes dados no olx, é possivel segmentar com o filtro "proprietário", selecionar sao paulo, ou o bairro, e fazer a automação abrir cada chat para captar o numero de telefone do criador do anuncio?
Estou tentando fazer o webscraping onde o resultado da busca são outras páginas, e é o conteúdo dessas outras páginas que eu preciso extrair. Na maioria dos tutoriais que vejo os códigos até percorrem várias páginas de conteúdo, mas extraem apenas informações dessas páginas percorridas, sem abrir os links.
Oi Jaqueline. Tá se referindo a qual site? Nao entendi muito bem. Se quer extrair de outras páginas tem que fazer uma requisição para cada uma delas também.
Professor, estava fazendo webscraping na Kabum, mas a forma do json é diferente, ela tem props, e pageProps, mas no do senhor, nos 'ads', tem todos os itens, mas na da Kabum fica somente uma variável de texto gigantesca, chamada 'data', tem como contornar isso?
Nunca fiz no site do Kabum , mas se tem lá é porque dá. Pode transformar o texto em um dicionário , por exemplo, ou pode navegar no objeto para extrair os dados mesmo.
Fala Igor. Tem que descobrir duas coisas. Primeiro é se essa informação aparece sem o javascript. A segunda é fuçar e descobrir qual xpath ou seletor você precisa extrair as informações
Fala Olavo. Abordo sim, nas últimas aulas. O que tem no curso é como colocar elas em servidor para serem agendadas via http. Mas se você quiser colocar para ela rodar a cada x horas, por exemplo, só pedir lá que eu acrescento essa aula.
Gostei muito do vídeo! Fiquei curioso pra ver o curso no hotmart. Mas cara, tentei executar o código mesmo com o _request_ e parece que a OLX está bloqueando. Mexi nos user agents e nada... Ele dá um retorno falando que é pra se proteger de DDoS. Sabe como tentar passar por isso?
O ruim de fazer vídeos sobre isso é que logo logo bloqueiam e temos que buscar outra solução. Eles estão usando o cloudfare e por isso tá bloqueando o acesso. Teria que testar com proxy, plugins para o cloudfare ou selenium.
Eu tenho um site de filmes e to tentando me aprofundar em webscraping, porém ainda to meio perdido. Indicaria um tutorial que eu faria essa mesma função mas colocaria os filmes de outros sites no meu ? Obs: eu uso a função embed.
Pelo que entendi vc precisa pegar os links, salvar e quando for carregar o html , carregar com os links. Desta forma que falou ficou vago. Que função embed você está se referindo?
Opa..boa sorte no seu trabalho. Se tiver algum conteúdo que te ajude me fala que eu tento gravar aqui. Não tenho canal no discord ainda. Aqui o canal ainda é muito pequeno
Oi. Assisti o video seu de scrap do Mercado Livre mas encontrei um problema. Quando eu entro pelo navegador tem 13 paginas mas o scrap só retorna 3. Ja tentei usar o DOWNLOAD_DELAY = 2 e nada.
Oi gente, tudo bem? Estou tentando pegar algumas informações que estão dentro de "properties", como o "size". Tentei fazer: "area": houses.get("properties").get("size"), mas não funcionou. Alguem poderia me ajudar a selecionar isso?
Primeiro parabens pelo video! poderia me tirar uma duvida ? mesmo o codigo do pastebin esta dando 403, tentei trocar o user agent tbm mas nao rolou... mas rodando no console do python com a r = request ele consegue puxar e trazer 200 sabe o que pode ser ?
Anderson, verifique se o user agent tá com a maneira correta de escrever. Além disso , pode reduzir a quantidade de requisições concorrentes, habilitar o autothrottle e mexer no download delay também. Tenta uma coisa de cada vez.
fala professor blz. professor esse json.loads pode ser um substituto para a biblioteca chompjs? essa biblioteca esta dando muito problema ora não instala, as vezes não acha o nome (ModuleNotFoundError: No module named 'chompjs') e eu já verifiquei o nome varias vezes ja desinstalei e instalei varias vezes mais ta dificil rs...
Fala code. São bibliotecas diferentes. A chompjs é para converter código javascript e o Json é para converter texto json em dicionário python. Manda lá no curso qual dificuldade para instalar que eu vou dar uma olhada.
Cara, tu me ajudou de mais. Obrigado!!
Caraca, nem terminei o vídeo ainda, e já curti a sua didática... ganhou mais um inscrito
Fala, Glauber. Bem vindo!
Voce é fera amigo. To aprendendo muito
Excelente vídeo, parabéns.
Depois poderiam fazer um mostrando sites com login.
Valeu pelo feedback. Sobre o login, depende muito do site, Bruno. Tem várias estratégias para fazer login mesmo.
voce mostra mt carinho mano, no que ensina, +1 inscrito
Valeu
2 kkkkk
carai.. meu sonho era ficar top nestas linguagens de programação .. mas toquei a vida por outro caminho ..
vou estudando aos poucos por hobby mesmo
Show❤
Não funciona mais (em Fev/2024). Retorna erro 403
Eles mudaram alguma coisa na segurança deles, tá foda burlar... se alguém por acaso conseguir, avisa aqui.
Video de scraping com mais de 6 meses, ja existe um serio risco do código estar obsoleto pois o site passou a barrar a requisição… conheço muito pouco scraping, comecei com BS4, mas achei a tecnologia um pouco fragil
@@edmilson1976 to usando a requests. Ate funcionar se nao tentar usar no modo headless
Programação é lógica. Não adianta vir aqui tentando copiar e colar
@@Treviz provavelmente você é iniciante, né? O que mais tem no mundo do desenvolvimento é cópia de trechos de código pronto.
Muito interessante a forma como voce fez.
Sobre webscrapping como um todo, o que você diz sobre selenium e beautiful soup?
Fala Fábio. São outras ferramentas. Selenium é ideal somente quando não dá pra fazer requisição usando request puro. Beautifulsoup cumpre o trabalho mas o parsel ou lxml são bem mais flexíveis e poderosos.
Muito bacana! Já tentou algo parecido no site do QuintoAndar ?
Não fiz não, mas parece ser possível.
A partir do minuto 4:18 extrai via request, selector e visualiza o resultado delas antes de partir para o scrapy, da pra fazer isso no vs code?
Ah, você fala de ter aquele preview das variáveis ali no canto direito do console?
Coloquei no vídeo novo
@@prognapratica isso mesmo, é um ótimo recurso, no pycharm é bem prático.
Muito bom o conteudo!!
Alguem conhece algum video ou conteudo que mostre tecnicas de como usar selenium e nao ser identificado como bot?
Essas técnicas variam de site para site. tem que sabe primeiro como o site identifica. pode ser via headers, proxies, footprint do selenium ou do chromedriver, pode ser que esteja fazendo muitas requisições por segundo, captcha, etc.. a lista vai longe.
Olá! Sua didática é muito boa, obrigada pelo conteúdo.
Estou tentando agora em 02 fev. 2024 e o erro que estou enfrentando é: 403 Acesso proibido.
Mesma coisa aqui
@@_____ian_____ o site ta usando o servico da cloudfare pra bloquear
faz um extraindo os dados e transformando em excel por favor @programação na pratica
Fala rodoupho. Dá uma olhada nos vídeos do canal. Tem um com a thumb de Excel.
para quem esta tentando a olx esta bloqeuando as requisicoes do modo headless pela cloudfare
estou refazendo esse case incluindo os detalhes como condomínio, metragem.... que está num nível abaixo.
qdo dou o comando .get() nos 7:50 so retorna "'{"props":{"pageProps":{},"__N_SSG":true},"page":"/u/[" - nao vem a pagina toda
Sim, o selector foi criado para pegar o conteúdo do xpath. Se quiser a página toda precisa passar o texto do resultado da requisição para o parsel.
Bom dia. Gostei muito da ferramenta scrapy. Rodei seu código sem problema para o olx. Tentei com o zapimoveis e também funcionou, porém dos 100 registros (carregados dinamicamente) da página apenas 15 foram obtidos. Pode me ajudar a fazer com que carregue todos os registros?
Bom dia, Flávio. Neste caso tem que estudar o site e enteder como funciona para consegui extrair.
Isso. Mas não sei por onde começar. Pode me ajudar ?
@@ffcgomes Flávio, posso sim: dá uma olhada nos vídeos do site, porque alguns deles abordam outras formas de fazer webscraping. basicamente você precisa explorar o site, tentar ver o html ou interceptar as requisições xhr que o site faz, etc. tem o início do curso de scrapy também com 1 hora de duração. talvez alguma dessas fontes te ajudem. Também tem as docs do scrapy em docs.scrapy.org/en/latest/.
eu sou corretor de imoveis, ao puxar estes dados no olx, é possivel segmentar com o filtro "proprietário", selecionar sao paulo, ou o bairro, e fazer a automação abrir cada chat para captar o numero de telefone do criador do anuncio?
se o dado for público e estiver no html, deve ser possível
Estou tentando fazer o webscraping onde o resultado da busca são outras páginas, e é o conteúdo dessas outras páginas que eu preciso extrair. Na maioria dos tutoriais que vejo os códigos até percorrem várias páginas de conteúdo, mas extraem apenas informações dessas páginas percorridas, sem abrir os links.
Oi Jaqueline. Tá se referindo a qual site? Nao entendi muito bem. Se quer extrair de outras páginas tem que fazer uma requisição para cada uma delas também.
Professor, estava fazendo webscraping na Kabum, mas a forma do json é diferente, ela tem props, e pageProps, mas no do senhor, nos 'ads', tem todos os itens, mas na da Kabum fica somente uma variável de texto gigantesca, chamada 'data', tem como contornar isso?
Nunca fiz no site do Kabum , mas se tem lá é porque dá. Pode transformar o texto em um dicionário , por exemplo, ou pode navegar no objeto para extrair os dados mesmo.
@@prognapratica Fiz exatamente isso professor, pedi pro python fazer mais um json.loads na variável de texto e funcionou
Otimo video, mas gostaria de saber como faço pra extrair informações como vagas na garagem, condominio etc... porque tentei e nao consegui.
Fala Igor. Tem que descobrir duas coisas. Primeiro é se essa informação aparece sem o javascript. A segunda é fuçar e descobrir qual xpath ou seletor você precisa extrair as informações
no curso abordar colocar isso em produção? essa é minha maior duvida de como deixar uma rotina pronta pra buscar todo dias sabe
Fala Olavo. Abordo sim, nas últimas aulas. O que tem no curso é como colocar elas em servidor para serem agendadas via http. Mas se você quiser colocar para ela rodar a cada x horas, por exemplo, só pedir lá que eu acrescento essa aula.
qual console você usa?
acho que nesse vídeo tava usando emacs.
Gostei muito do vídeo! Fiquei curioso pra ver o curso no hotmart. Mas cara, tentei executar o código mesmo com o _request_ e parece que a OLX está bloqueando. Mexi nos user agents e nada... Ele dá um retorno falando que é pra se proteger de DDoS. Sabe como tentar passar por isso?
O ruim de fazer vídeos sobre isso é que logo logo bloqueiam e temos que buscar outra solução. Eles estão usando o cloudfare e por isso tá bloqueando o acesso. Teria que testar com proxy, plugins para o cloudfare ou selenium.
@@prognapratica é do jogo cara... fazer crawler tem dessas mesmo. de qualquer forma gostei muito do teu conteúdo cara, parabéns d+
Eu tenho um site de filmes e to tentando me aprofundar em webscraping, porém ainda to meio perdido. Indicaria um tutorial que eu faria essa mesma função mas colocaria os filmes de outros sites no meu ? Obs: eu uso a função embed.
Pelo que entendi vc precisa pegar os links, salvar e quando for carregar o html , carregar com os links. Desta forma que falou ficou vago. Que função embed você está se referindo?
o cara respodne comentarios em dia, que foda, vou fazer um trabalho final sobre webscraping no senai e vc ta me ajudando mt valeu! tem discord?
Opa..boa sorte no seu trabalho. Se tiver algum conteúdo que te ajude me fala que eu tento gravar aqui. Não tenho canal no discord ainda. Aqui o canal ainda é muito pequeno
Oi. Assisti o video seu de scrap do Mercado Livre mas encontrei um problema. Quando eu entro pelo navegador tem 13 paginas mas o scrap só retorna 3. Ja tentei usar o DOWNLOAD_DELAY = 2 e nada.
Mudou o user agent? Manda o link do código que usou. Pode ser no pastebin
Você dá aula particular?
procuro mentoria, não curso gravado.
Dou sim. Manda um email para prognapratica@gmail.com com as suas dúvidas e te respondo por lá.
Oi gente, tudo bem? Estou tentando pegar algumas informações que estão dentro de "properties", como o "size". Tentei fazer: "area": houses.get("properties").get("size"), mas não funcionou. Alguem poderia me ajudar a selecionar isso?
E aí, Juliana, conseguiu?
Primeiro parabens pelo video!
poderia me tirar uma duvida ?
mesmo o codigo do pastebin esta dando 403, tentei trocar o user agent tbm mas nao rolou... mas rodando no console do python com a r = request ele consegue puxar e trazer 200 sabe o que pode ser ?
Anderson, verifique se o user agent tá com a maneira correta de escrever. Além disso , pode reduzir a quantidade de requisições concorrentes, habilitar o autothrottle e mexer no download delay também. Tenta uma coisa de cada vez.
voltei a tentar hoje, e nada feito .. tentei todas as opções comentadas acima.. nem com gpt e acrescentando outras apenas recebo 403.@@prognapratica
Cadê o código?
@@andsoalvesbr você conseguiu? Te pergunto, porque estou tentando (02/02/2024) e estou enfrentando o mesmo problema que você.
Mesmo problema aqui. Tentei rotating proxies, fake user-agent, download delay e nada.
to fazendo um site que nada disso funciona, retorna as funções e nao os dados
comigo só da código 403. triste.....
Da uma olhada que no canal tem um vídeo falando disso =]
To padecendo, se puder ajudar agradeço muito. Já procurei ajuda em outros idomas mas todos os tutoriais são semelhantes
Dá uma olhada no vídeo básico do curso de scrapy que tem aqui no canal.
fala professor blz.
professor esse json.loads pode ser um substituto para a biblioteca chompjs?
essa biblioteca esta dando muito problema ora não instala, as vezes não acha o nome (ModuleNotFoundError: No module named 'chompjs') e eu já verifiquei o nome varias vezes ja desinstalei e instalei varias vezes mais ta dificil rs...
Fala code. São bibliotecas diferentes. A chompjs é para converter código javascript e o Json é para converter texto json em dicionário python. Manda lá no curso qual dificuldade para instalar que eu vou dar uma olhada.