크롤링 할 때 차단당하지 않는 비법 총정리

Поделиться
HTML-код
  • Опубликовано: 29 дек 2024

Комментарии • 49

  • @tonyhoon7
    @tonyhoon7 Год назад +5

    선 추천 후 감상 갑니다. 도움이 많이 되는 내용, 언제나 감사합니다. 거의 모든 영상을 보게 되는 것 같습니다. :)

    • @kimfl
      @kimfl  Год назад

      항상 시청해주셔서 감사합니다!

  • @exactshirt
    @exactshirt Год назад +2

    으아..
    왜 지금이런 지식을 공개해주시나요
    반년만 일찍 주시지
    농담입니다 뒤늦게라도 알아서 기쁘고 넘 흥미롭네요
    챗지피티한테 상세한 프롬프트로 아무리 조져도 얻지 못햇던 값진 지식을 여기서 얻는군욬ㅋㅋㅋㅋㅋㅋㅋ

    • @kimfl
      @kimfl  Год назад +1

      감사합니다~ㅎㅎ

  • @Suhyun-oe6ui
    @Suhyun-oe6ui Год назад +1

    선생님 항상 넘 잘 보고 있습니다 :)
    자동화 심화기술 강의가 희귀한데 정말 감사드려요.

    • @kimfl
      @kimfl  Год назад

      저도 감사드립니다~!

  • @오늘하루완전화이팅
    @오늘하루완전화이팅 Год назад +1

    진짜 감사합니다 ㅠㅠ

    • @kimfl
      @kimfl  Год назад

      저도 감사합니다!

  • @애드센스-y1k
    @애드센스-y1k 8 месяцев назад +1

    와~ 역시 배움에는 끝이 없네요. 비개발자로 아직은 코드 복사붙이기 하고 있지만, 언젠간 아름다운 코드를 작성하고 싶네요. 좋은 영상 감사합니다.

    • @kimfl
      @kimfl  8 месяцев назад +1

      감사합니다~!

  • @jyc3481
    @jyc3481 Год назад +4

    제가 하나 꿀 팁 드리면 부동산정보 가지고 크롤링해서 정제해서 보여주는 프로그램 만들어보세요. 꿀통 나눕니다

    • @jason-u2i
      @jason-u2i 7 месяцев назад

      직방같은거 말하는거? 이미 있잖음

  • @boos820
    @boos820 Год назад

    네이버 같은경우는 ip부분은 아주 기본이고 핸드폰 아이피를 아주 저급 ip로 취급하고 제일까다로운것이 브라우저핑거프린터인데 이게 2개가 핵심이더군요

  • @와이비엘
    @와이비엘 23 часа назад

    이거 지금 되게 살려 주세요.

  • @teddypark__v_x
    @teddypark__v_x Месяц назад

    4:40 그냥 요청헤더 긁어와서 그대로 다 넣으면 안되나여?

  • @guruma78
    @guruma78 Год назад

    감사합니다~

    • @kimfl
      @kimfl  Год назад

      저도 감사합니다~

  • @user-bi9ww5wc41
    @user-bi9ww5wc41 Год назад +1

    좋은 영상 감사합니다! 혹시 인스타는 안하시나요?

    • @kimfl
      @kimfl  Год назад

      인스타는 그냥 계정만 있는 수준입니다.ㅎㅎ

  • @lohoon9257
    @lohoon9257 8 месяцев назад +1

    차분하고 딥한 설명 감사합니다. 다중 ip를 사용해야만 지속 크롤링이 가능한 사이트를 크롤링하려고 하는데, 질문 몇가지만 드려도 될까요?
    1. 고정 ip를 구매해서 쓴다면 추천할만한 사이트가 있으실까요?
    2. 고정 ip 구매보다 더 좋은 방법으로 ip를 여러개 확보할 수 있는 방법이 있을까요?
    감사합니다.

    • @kimfl
      @kimfl  8 месяцев назад

      상황에 따라서 다르겠지만 제 경험에서 말씀드리자면,
      대부분의 경우, 로그인을 해야 하는 상황이 아니라면 굳이 비싼 고정 ip를 사용할 필요는 없다고 생각합니다.
      저는 고정 ip를 사용했던 경우는 네이버 로그인이 필요한 자동화 프로그램에서 사용을 했었습니다.
      제가 협업했던 브라이트 데이터(brightdata)라는 회사가 있습니다. 이쪽 분야에서는 거의 세계 최대 기업입니다.
      ruclips.net/video/gUBz0iDVG30/видео.html
      ruclips.net/video/QtrBHY4_uLw/видео.html
      협업 영상인데 참고해 보시면 도움 될 것 같습니다.

  • @ymmy-op7ut
    @ymmy-op7ut 9 месяцев назад

    특정 웹사이트를 크롤링하니까 깨진 문자열 몇개만 출력되서 영상에 나온대로 하니 아무것도 안뜨네요. 웹사이트 운영자가 막아놓은 걸까요?

  • @djha1257
    @djha1257 Год назад

    감사합니다

    • @kimfl
      @kimfl  Год назад

      저도 감사합니다~

  • @손두진-p4h
    @손두진-p4h Год назад

    대법원인터넷경매 크롤링도 되나요? 그리고 검색후 우리경매들어가면 대법원꺼보다 보기가 편하던데 그것도 크롤링 가능한지? 추가로 오후엔 낙찰된 물건 나오던데 그것도 크롤링 하면 편할것 같은데 가능 한가요? 실시간 가능하다면 낙찰전 크롤링/낙찰후 크롤링 다될텐데요? 된다면 이것도 파이썬으로 하나요?

    • @kimfl
      @kimfl  Год назад

      웬만하면 크롤링은 된다고 생각하시면 됩니다. 다만 난이도의 차이가 있을 뿐이죠. 그리고 꼭 파이썬이 아니라 크롤링이 가능한 다른 언어를 사용해도 됩니다.

  • @GPTAI1980
    @GPTAI1980 Год назад

    책은 언제출간 되나요?? ^^

    • @kimfl
      @kimfl  Год назад +1

      아직 멀었습니다. 빨라도 내년 초에 출간됩니다.ㅎㅎ

  • @tigerbojiteol
    @tigerbojiteol Год назад +1

    영상 감사합니다. 혹시 playwright는 안쓰시나요?

    • @djha1257
      @djha1257 Год назад

      그게 뭔가요

    • @kimfl
      @kimfl  Год назад +1

      강의 계획이 있는데 지금 유튜브 이외에도 밀린 일이 많아서 만들지 못하고 있습니다.ㅠㅠ

    • @kimfl
      @kimfl  Год назад

      이것도 셀레니움처럼 자동화 라이브러리입니다.

    • @tonyhoon7
      @tonyhoon7 Год назад +2

      playwright 써봤는데 결정적으로 playwright와 pypeteer(&pupeteer)는 셀레니엄처럼 navigator.webdriver를 false로 만드는게 불가능 하더군요. 매번 페이지 접속할 때마다 false로 바꿔주고 들어가도 매번 console에 들어가서 확인해 보면 true로 바뀌어 있어서 원인을 알아보니 개발된 특성상 그럴 수 밖에 없다고 하는 글을 보았습니다. playwright를 쓰면 async모드로 처리할 수 있는 장점도 있지만, 실제 여러 페이지를 동시에 크롤링 하는게 다른 원인으로 불가한 상황이 생겨서 그러한 장점이 많이 희석되더라구요. playwright sync, async, 셀레니엄 모두 써보니 셀레니엄이 총체적으로는 장점이 제일 큰 것으로 느껴졌습니다. 물론 저도 계속 배워가는 중이라 저의 짧은 식견으로 인한 잘못된 정보가 전달될 수 있으니 다시 한번 확인해 보심을 권합니다.

  • @in-thesky
    @in-thesky 7 месяцев назад

    안녕하세요 꼭 질문하고 싶은 내용이 있습니다
    말씀하신대로 해보니 응답 잘 받았습니다 그런데 제품을 find_all로 모두 찾아서 for 반복문으로 돌리는데 결과 충력을 보면 순서가 정확하지 않네요
    원래 이런 건지 궁금합니다
    딥변해주시면 감사합니다!

    • @kimfl
      @kimfl  7 месяцев назад

      쿠팡의 특징입니다. 간단하게 모바일과 pc로 동시에 같은 제품을 검색해서 접속해 보시면 결과가 조금 다름을 확인하실 수 있습니다. 시크릿 모드로 접속해도 그냥 접속했을때와 제품 순서에 차이가 있습니다.

  • @Bamboo_of_Value
    @Bamboo_of_Value Год назад

    저는 request로 해보려는데, SSL인증 문제를 뚫을 수가 없네요. 쿠팡은 셀레니움만 가능한 것인지..ㅠ

    • @kimfl
      @kimfl  Год назад

      상세페이지의 상품평처럼 자바스크립트로 보여주는걸 가져오려면 셀레니움을 사용해야하지만 그런게 아닌 상품명, 가격, 옵션 등의 기본적인 정보들은 requests로 가능합니다.

  • @적반하장-en
    @적반하장-en Год назад

    차단안걸리려면 구걸링시간을 인간이 할수있는 시간으로 조절 하여 사용 한것이 좋은가요(예로0.5초)?

    • @kimfl
      @kimfl  Год назад

      물론 사람처럼 보이도록 조절하는게 좋겠지만 그렇다고 차단이 안된다는게 아닙니다. 사이트마다 다 다릅니다. 사람처럼 보이는 시간 간격이 중요한 사이트도 있을테고 아예 상관없는 사이트도 있습니다.

  • @user-l9v7xff567
    @user-l9v7xff567 Год назад

    궁금한 점이 있어요
    쿠파에서 보통 시간이 지나면 상품이 사라져서 페이지가 깨지는 경우가 많은데요
    1) 동일한 상품을 찾는다
    2) 쿠파 링크를 변경해준다
    즉 웹사이트 관리의 문제인데요
    파이썬에서 어떤걸 공부해보면 이 문제를 풀어볼 수 있을까요

    • @kimfl
      @kimfl  Год назад

      이런 문제는 어떻게 해결할지를 먼저 정하고 그걸 구현하려면 어떻게 해야하는지 생각해서 필요한 부분을 공부해야하지 않을까요?
      운영자가 아닌이상 사이트가 어떻게 되어있는지 모르기 때문에 구체적인 해결책을 제시하기는 힘들거라고 생각됩니다.

  • @kbaeksu
    @kbaeksu Год назад +1

    참 좋은거 가르칩니다. 크롤링해서 하루에 200원정도는 벌수 있나요? 한달에 커피한잔은 사 드실수 있겠네요. 파이썬 하는 사람도 프로그래머인줄 첨 알았어요. 서버관리하는데 울 서버에는 해당 사항 없겠네요. 잘 보고 갑니다.

    • @nfo_archive
      @nfo_archive Год назад +6

      넌 트롤짓하면 얼마 버는데?

    • @sabonkim
      @sabonkim Год назад

      크롤링으로 앉아서 월 100~400벌고있습니다. 잘 보고 가세요.

    • @나무우
      @나무우 Год назад

      분노한 서버 개발자 or 꼬인 백수인가

    • @sabonkim
      @sabonkim Год назад

      이 논리대로면 양자컴퓨팅으로 RSA 복호화 하는 논문 쓴 분들은 '조회수'는 커녕 '인용'만 해도 수천개에 달하는데 모든 나라에서 소환해서 조각내서 참형이라도 해야함 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 귀엽네

    • @namenick6396
      @namenick6396 Год назад +1

      누가봐도 어그론데 댓글 달지 말고 신고합시다