차분하고 딥한 설명 감사합니다. 다중 ip를 사용해야만 지속 크롤링이 가능한 사이트를 크롤링하려고 하는데, 질문 몇가지만 드려도 될까요? 1. 고정 ip를 구매해서 쓴다면 추천할만한 사이트가 있으실까요? 2. 고정 ip 구매보다 더 좋은 방법으로 ip를 여러개 확보할 수 있는 방법이 있을까요? 감사합니다.
상황에 따라서 다르겠지만 제 경험에서 말씀드리자면, 대부분의 경우, 로그인을 해야 하는 상황이 아니라면 굳이 비싼 고정 ip를 사용할 필요는 없다고 생각합니다. 저는 고정 ip를 사용했던 경우는 네이버 로그인이 필요한 자동화 프로그램에서 사용을 했었습니다. 제가 협업했던 브라이트 데이터(brightdata)라는 회사가 있습니다. 이쪽 분야에서는 거의 세계 최대 기업입니다. ruclips.net/video/gUBz0iDVG30/видео.html ruclips.net/video/QtrBHY4_uLw/видео.html 협업 영상인데 참고해 보시면 도움 될 것 같습니다.
대법원인터넷경매 크롤링도 되나요? 그리고 검색후 우리경매들어가면 대법원꺼보다 보기가 편하던데 그것도 크롤링 가능한지? 추가로 오후엔 낙찰된 물건 나오던데 그것도 크롤링 하면 편할것 같은데 가능 한가요? 실시간 가능하다면 낙찰전 크롤링/낙찰후 크롤링 다될텐데요? 된다면 이것도 파이썬으로 하나요?
playwright 써봤는데 결정적으로 playwright와 pypeteer(&pupeteer)는 셀레니엄처럼 navigator.webdriver를 false로 만드는게 불가능 하더군요. 매번 페이지 접속할 때마다 false로 바꿔주고 들어가도 매번 console에 들어가서 확인해 보면 true로 바뀌어 있어서 원인을 알아보니 개발된 특성상 그럴 수 밖에 없다고 하는 글을 보았습니다. playwright를 쓰면 async모드로 처리할 수 있는 장점도 있지만, 실제 여러 페이지를 동시에 크롤링 하는게 다른 원인으로 불가한 상황이 생겨서 그러한 장점이 많이 희석되더라구요. playwright sync, async, 셀레니엄 모두 써보니 셀레니엄이 총체적으로는 장점이 제일 큰 것으로 느껴졌습니다. 물론 저도 계속 배워가는 중이라 저의 짧은 식견으로 인한 잘못된 정보가 전달될 수 있으니 다시 한번 확인해 보심을 권합니다.
선 추천 후 감상 갑니다. 도움이 많이 되는 내용, 언제나 감사합니다. 거의 모든 영상을 보게 되는 것 같습니다. :)
항상 시청해주셔서 감사합니다!
으아..
왜 지금이런 지식을 공개해주시나요
반년만 일찍 주시지
농담입니다 뒤늦게라도 알아서 기쁘고 넘 흥미롭네요
챗지피티한테 상세한 프롬프트로 아무리 조져도 얻지 못햇던 값진 지식을 여기서 얻는군욬ㅋㅋㅋㅋㅋㅋㅋ
감사합니다~ㅎㅎ
선생님 항상 넘 잘 보고 있습니다 :)
자동화 심화기술 강의가 희귀한데 정말 감사드려요.
저도 감사드립니다~!
진짜 감사합니다 ㅠㅠ
저도 감사합니다!
와~ 역시 배움에는 끝이 없네요. 비개발자로 아직은 코드 복사붙이기 하고 있지만, 언젠간 아름다운 코드를 작성하고 싶네요. 좋은 영상 감사합니다.
감사합니다~!
제가 하나 꿀 팁 드리면 부동산정보 가지고 크롤링해서 정제해서 보여주는 프로그램 만들어보세요. 꿀통 나눕니다
직방같은거 말하는거? 이미 있잖음
네이버 같은경우는 ip부분은 아주 기본이고 핸드폰 아이피를 아주 저급 ip로 취급하고 제일까다로운것이 브라우저핑거프린터인데 이게 2개가 핵심이더군요
이거 지금 되게 살려 주세요.
4:40 그냥 요청헤더 긁어와서 그대로 다 넣으면 안되나여?
감사합니다~
저도 감사합니다~
좋은 영상 감사합니다! 혹시 인스타는 안하시나요?
인스타는 그냥 계정만 있는 수준입니다.ㅎㅎ
차분하고 딥한 설명 감사합니다. 다중 ip를 사용해야만 지속 크롤링이 가능한 사이트를 크롤링하려고 하는데, 질문 몇가지만 드려도 될까요?
1. 고정 ip를 구매해서 쓴다면 추천할만한 사이트가 있으실까요?
2. 고정 ip 구매보다 더 좋은 방법으로 ip를 여러개 확보할 수 있는 방법이 있을까요?
감사합니다.
상황에 따라서 다르겠지만 제 경험에서 말씀드리자면,
대부분의 경우, 로그인을 해야 하는 상황이 아니라면 굳이 비싼 고정 ip를 사용할 필요는 없다고 생각합니다.
저는 고정 ip를 사용했던 경우는 네이버 로그인이 필요한 자동화 프로그램에서 사용을 했었습니다.
제가 협업했던 브라이트 데이터(brightdata)라는 회사가 있습니다. 이쪽 분야에서는 거의 세계 최대 기업입니다.
ruclips.net/video/gUBz0iDVG30/видео.html
ruclips.net/video/QtrBHY4_uLw/видео.html
협업 영상인데 참고해 보시면 도움 될 것 같습니다.
특정 웹사이트를 크롤링하니까 깨진 문자열 몇개만 출력되서 영상에 나온대로 하니 아무것도 안뜨네요. 웹사이트 운영자가 막아놓은 걸까요?
감사합니다
저도 감사합니다~
대법원인터넷경매 크롤링도 되나요? 그리고 검색후 우리경매들어가면 대법원꺼보다 보기가 편하던데 그것도 크롤링 가능한지? 추가로 오후엔 낙찰된 물건 나오던데 그것도 크롤링 하면 편할것 같은데 가능 한가요? 실시간 가능하다면 낙찰전 크롤링/낙찰후 크롤링 다될텐데요? 된다면 이것도 파이썬으로 하나요?
웬만하면 크롤링은 된다고 생각하시면 됩니다. 다만 난이도의 차이가 있을 뿐이죠. 그리고 꼭 파이썬이 아니라 크롤링이 가능한 다른 언어를 사용해도 됩니다.
책은 언제출간 되나요?? ^^
아직 멀었습니다. 빨라도 내년 초에 출간됩니다.ㅎㅎ
영상 감사합니다. 혹시 playwright는 안쓰시나요?
그게 뭔가요
강의 계획이 있는데 지금 유튜브 이외에도 밀린 일이 많아서 만들지 못하고 있습니다.ㅠㅠ
이것도 셀레니움처럼 자동화 라이브러리입니다.
playwright 써봤는데 결정적으로 playwright와 pypeteer(&pupeteer)는 셀레니엄처럼 navigator.webdriver를 false로 만드는게 불가능 하더군요. 매번 페이지 접속할 때마다 false로 바꿔주고 들어가도 매번 console에 들어가서 확인해 보면 true로 바뀌어 있어서 원인을 알아보니 개발된 특성상 그럴 수 밖에 없다고 하는 글을 보았습니다. playwright를 쓰면 async모드로 처리할 수 있는 장점도 있지만, 실제 여러 페이지를 동시에 크롤링 하는게 다른 원인으로 불가한 상황이 생겨서 그러한 장점이 많이 희석되더라구요. playwright sync, async, 셀레니엄 모두 써보니 셀레니엄이 총체적으로는 장점이 제일 큰 것으로 느껴졌습니다. 물론 저도 계속 배워가는 중이라 저의 짧은 식견으로 인한 잘못된 정보가 전달될 수 있으니 다시 한번 확인해 보심을 권합니다.
안녕하세요 꼭 질문하고 싶은 내용이 있습니다
말씀하신대로 해보니 응답 잘 받았습니다 그런데 제품을 find_all로 모두 찾아서 for 반복문으로 돌리는데 결과 충력을 보면 순서가 정확하지 않네요
원래 이런 건지 궁금합니다
딥변해주시면 감사합니다!
쿠팡의 특징입니다. 간단하게 모바일과 pc로 동시에 같은 제품을 검색해서 접속해 보시면 결과가 조금 다름을 확인하실 수 있습니다. 시크릿 모드로 접속해도 그냥 접속했을때와 제품 순서에 차이가 있습니다.
저는 request로 해보려는데, SSL인증 문제를 뚫을 수가 없네요. 쿠팡은 셀레니움만 가능한 것인지..ㅠ
상세페이지의 상품평처럼 자바스크립트로 보여주는걸 가져오려면 셀레니움을 사용해야하지만 그런게 아닌 상품명, 가격, 옵션 등의 기본적인 정보들은 requests로 가능합니다.
차단안걸리려면 구걸링시간을 인간이 할수있는 시간으로 조절 하여 사용 한것이 좋은가요(예로0.5초)?
물론 사람처럼 보이도록 조절하는게 좋겠지만 그렇다고 차단이 안된다는게 아닙니다. 사이트마다 다 다릅니다. 사람처럼 보이는 시간 간격이 중요한 사이트도 있을테고 아예 상관없는 사이트도 있습니다.
궁금한 점이 있어요
쿠파에서 보통 시간이 지나면 상품이 사라져서 페이지가 깨지는 경우가 많은데요
1) 동일한 상품을 찾는다
2) 쿠파 링크를 변경해준다
즉 웹사이트 관리의 문제인데요
파이썬에서 어떤걸 공부해보면 이 문제를 풀어볼 수 있을까요
이런 문제는 어떻게 해결할지를 먼저 정하고 그걸 구현하려면 어떻게 해야하는지 생각해서 필요한 부분을 공부해야하지 않을까요?
운영자가 아닌이상 사이트가 어떻게 되어있는지 모르기 때문에 구체적인 해결책을 제시하기는 힘들거라고 생각됩니다.
참 좋은거 가르칩니다. 크롤링해서 하루에 200원정도는 벌수 있나요? 한달에 커피한잔은 사 드실수 있겠네요. 파이썬 하는 사람도 프로그래머인줄 첨 알았어요. 서버관리하는데 울 서버에는 해당 사항 없겠네요. 잘 보고 갑니다.
넌 트롤짓하면 얼마 버는데?
크롤링으로 앉아서 월 100~400벌고있습니다. 잘 보고 가세요.
분노한 서버 개발자 or 꼬인 백수인가
이 논리대로면 양자컴퓨팅으로 RSA 복호화 하는 논문 쓴 분들은 '조회수'는 커녕 '인용'만 해도 수천개에 달하는데 모든 나라에서 소환해서 조각내서 참형이라도 해야함 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 귀엽네
누가봐도 어그론데 댓글 달지 말고 신고합시다