크롤링이 처음인 초보자들에게 파이썬 Beautifulsoup을 권해드립니다

Поделиться
HTML-код
  • Опубликовано: 22 сен 2024
  • #크롤링 #Crawling #beautifulsoup #requests #파이썬 #코딩 #드래그금지 #우클릭금지 #복사금지 #블로그 #추출 #초보 #태그 #요소
    처음으로 코딩을 하시거나 익숙하지 않으신 분들이 쉽게 크롤링을 해볼 수 있도록 영상을 준비하였습니다. beautifulsoup 라이브러리를 이용해서 복사가 금지되어 있는 웹페이지의 내용을 마음껏 사용할 수 있도록 코드를 작성하였습니다.
    ** 코드 내용 수정 **
    soup = BeautifulSoup(req.content, "html.parser")
    soup = BeautifulSoup(req.text, "html.parser")
    둘다 동일한 결과를 나타내니 둘다 쓰셔도 무방합니다!
    상세 코드는 아래 블로그를 참고바랍니다.
    blog.naver.com...

Комментарии • 74

  • @byungsoonjin1192
    @byungsoonjin1192 2 года назад +1

    알기쉽게 설명해줘서 귀에 쏙쏙들어오네요 감사합니다

  • @neetduck7700
    @neetduck7700 2 года назад +1

    유튜브 영상중에 제일 좋은 영상이였습니다 감사합니다 ㅠ

  • @진원-w9q
    @진원-w9q 2 года назад +1

    지금껏 보았던 것들 중 최고입니다. !!! 정말 이해가 잘 됩니다!!!

  • @inojyes
    @inojyes 2 года назад +1

    자세한 설명 감사합니다 정말 도움이 많이 되었습니다 감사합니다

  • @100busan
    @100busan 2 года назад +1

    쥬피터를 처음 사용 해봅니다.
    설명 방식이 짜고 실행 하나 짜고 실행 하서 이해가 빠릅니다.
    너무 감사합니다.

  • @hummer09
    @hummer09 3 года назад +2

    차분하게 따라할 수 있고, 함수 하나하나 기능까지 설명해주시니 이해하기 한결 수월해서 좋네요!
    다른 파이썬 강의도 기대해봅니다.

  • @welldone9999
    @welldone9999 4 года назад +1

    좋은강의 항상 감사드립니나

  • @After_all_this_time
    @After_all_this_time Год назад +1

    꺄 넘잼게봤어요

  • @거북-s2m
    @거북-s2m 4 года назад +2

    유료강의 못지않은 좋은강의 항상 잘 시청중입니다 :)

    • @chobocoding
      @chobocoding  4 года назад

      늘 좋은 말씀 감사합니다 ^^

  • @코코-k9e
    @코코-k9e 3 года назад +1

    쉬운 설명 감사드립니다😊

  • @주희룡
    @주희룡 4 года назад +1

    감사합니다. 재미있게 따라 해봤습니다^^

  • @바르고운-d6n
    @바르고운-d6n 3 года назад +1

    도움많이 됐어요 감사합니다!! 정말 잘가르치시네요

  • @이어루-p2i
    @이어루-p2i Год назад

    감사합니다!! 코알못 정말 도움됐습니다..

  • @Hamtoriya
    @Hamtoriya 4 года назад +1

    항상 좋은 강의 감사해요 😚덕분에 열심히 공부하고있어요

    • @chobocoding
      @chobocoding  4 года назад +1

      감사합니다 힘이되네요 ~^^

  • @user32204
    @user32204 4 года назад +1

    감사합니다 잘 배웠어요!

  • @holee457
    @holee457 3 года назад +1

    very good

  • @data7849
    @data7849 3 года назад +1

    😍

  • @정다방김양
    @정다방김양 4 года назад +1

    파이썬 처음 해보는데 도움이 되네요

  • @tspark1071
    @tspark1071 3 года назад +1

    excelente

  • @레도도-n7b
    @레도도-n7b 2 года назад +1

    좋은 강의 감사드립니다!
    24:21 부분에서 숫자들을 지우기 위해서 len 이용하여 작은 애들 필터링하셨는데 이 과정에서 숫자 이외에 한글 단어가 3글자 이하인 경우 이것도 필터링 될텐데 혹시 다른 한글과 숫자를 걸러내는 다른 방법도 있을까요??

    • @chobocoding
      @chobocoding  2 года назад

      숫자임을 확인하는 방법은 저 문자열들을 int함수로 뒤집어 씌웠을때 정상적으로 작동하는지 오류가 나는지로 판단해 볼 수 있을 것 같습니다. try문을 사용하면 그 코드가 오류가 날때 코드가 종료되지 않고 다른 명령을 수행할 수 있게 기능을 구현할수 있습니다.

    • @레도도-n7b
      @레도도-n7b 2 года назад

      @@chobocoding 감사합니다!!

  • @i79
    @i79 4 года назад +1

    근자감만으로 아무깽이도 없이 무작정 검색해 들어와, 황당해할 누군가를 위해 사전에 학습해야 될 부분을 언급해 주셨으면 좋겠습니다.(덕분에 셀레니움 잘 사용하고 있습니다. 아! 앞부분에서 전에 언급하셨던 내용이 나와서 황당했는데, 그 후에 코드 설명하시면서는 그냥 '사용한다'라고만 하셔서 당황했습니다. 상세히 설명해주시기보단 전에 올리신 영상을 언급해주시면 좋을것 같아요!)

    • @chobocoding
      @chobocoding  4 года назад

      소중한 피드백 감사합니다 ㅎㅎ 저도 고민이 많은 부분입니다. 구독자분들은 이전 영상이나 기본 지식이 있는 상태에서 보기 때문에 중복되는 내용이 있기는 하지만 처음 보시는 분들은 또 질문을 하시는 경우가 많더라구요. (이전 영상을 언급하더라도요) 혹시나 나중에도 그런 중복되는 부분이 생긴다면 앞으로 귀찮으시겠지만 ㅠ 넘겨가면서 시청해주시면 감사하겠습니다. 그리고 코드 설명하면서 그냥 사용한다 라고 느끼셨던 부분은 혹시 어느 부분인지 말씀해주시면 참고해서 다음에 반영하도록 하겠습니다!! 다시 한 번 피드백 감사합니다 !!

  • @dho219
    @dho219 2 года назад +1

    늘 자세한 설명 감사합니다. req_text_data.find("div", attrs = {"class","value_price2"}).get_text() 이렇게 작성했는데, req_text_data에 find함수로 value_price2가 없을 경우에 오류가 발생할때는 어떻게 해야할까요?

    • @chobocoding
      @chobocoding  2 года назад +1

      오류가 생겨도 코드를 정상적으로 작동시키려면 try문을 사용하시면 됩니다. 구글에서 try문 사용 방법을 찾아 보시면 금방 나올 겁니다.

  • @이지은-z6y3q
    @이지은-z6y3q 2 года назад +1

    여쭤볼게 있습니다! list 까지 다 만들었고 텍스트로 저장하는 것을 pandas를 이용해 csv로 만드려고 하는데 그 코딩은 어떻게 쳐야하나요,,,?

    • @chobocoding
      @chobocoding  2 года назад

      ruclips.net/p/PLZOm4uzWk9WNTm1veQQz8EEDFKJH-bYXG
      여기에 있는 영상 참고하시고, 확장자를 xlsx가 아닌 csv로 지정하시면 될 겁니다.

  • @dfe2847
    @dfe2847 2 года назад +1

    늦은 새벽에 영상보고 업무에 많은 도움 되었습니다 .ㅠㅠ
    그런데, F12에서 제가 찾고 싶은 값은 8이라는 숫자로 돼어있는데
    쥬피터노트북에는 1이라고 뜨는데, 저는 그대로 결과값을 불러오는 코드만 짰는데도 표기가 달라질 수 있나요??

    • @chobocoding
      @chobocoding  2 года назад

      find 함수가 같은 특징을 가지고 있는 가장 첫번째 요소를 찾기 때문에, find_all 함수로 일단 모든 요소를 찾아서 그런 요소가 몇개 있는지 찾아야 합니다. 여러개라면 찾고 싶은 요소를 딱 찾을 수 있는 탐색 조건을 다시 선정해봐야겠죠.

    • @dfe2847
      @dfe2847 2 года назад

      @@chobocoding 음...조금 더 해봐야겠네용
      감사합니다!

  • @최봉현-p7b
    @최봉현-p7b 3 года назад +1

    좋은 강의 감사합니다. 평소에 열심히 구독중입니다.
    15분 50초 강의부분에서
    soup.find("tbody").find_all("span")
    이라고 똑같이 따라서 코딩했는데 아래와 같은 에러메세지가 뜨네요~ㅠㅠ
    ---------------------------------------------------------------------------
    AttributeError Traceback (most recent call last)
    in
    ----> 1 soup.find("tbody").find("span")
    AttributeError: 'NoneType' object has no attribute 'find'

    • @chobocoding
      @chobocoding  3 года назад

      같은 사이트(네이버 블로그)를 대상으로 하고 계신 것이 맞나요???

    • @최봉현-p7b
      @최봉현-p7b 3 года назад

      @@chobocoding 네 동일한 블로그입니다 // 예쁜 한국말 / 예쁜 뜻이 담긴 순수 한국말 한글 단어

    • @chobocoding
      @chobocoding  3 года назад

      soup.find("find")
      이 코드도 오류가 발생하나요?

    • @최봉현-p7b
      @최봉현-p7b 3 года назад

      빠른 회신 감사드립니다.
      진작에 답글을 드렸는데도 답글이 자꾸 사라지네요 ㅠㅠ
      soup.find("find") 를 해도 계속 네임에러가 뜨네요

    • @chobocoding
      @chobocoding  3 года назад

      아 제가 오타를 냈네요
      soup.find("tbody")
      이렇게요

  • @MoneyHubTips
    @MoneyHubTips 4 года назад +2

    오늘 알게되었는데 강의 감사합니다.! 네이버를 로그인을해야 할수있는곳은 어케해야될까요?

    • @chobocoding
      @chobocoding  4 года назад

      로그인해야하는 곳은 selenium 라이브러리를 이용해서 크롤링을 하면 됩니다~

  • @kslee5402
    @kslee5402 2 года назад +1

    마지막에 메모장에 저장하는 것 대신
    구글스프레드 시트로 저장하거나 특정 주기로 계속 반복하는 것도 가능할까요?

    • @chobocoding
      @chobocoding  2 года назад +1

      구글스프레드시트는 제가 안 해봐서 될지 않될지 잘 모르겠네요~ 측정 주기로 반복하는 것은 반복문을 사용하면 될 듯 합니다

  • @ssoo4984
    @ssoo4984 3 года назад +1

    좋은 강의 너무 잘 봤습니다! 감사합니다! 블로그에 질문을 남겼는데 답변 부탁드려도 될까요?

  • @형지현-n7n
    @형지현-n7n 2 года назад +1

    12분 30초 지점에서
    soup.find('span')을 실행시켰는데, 작동이 완료되긴 했는데, 출력값들이 안나와서... 혹시 왜 이러는지 알 수 있을까요?

    • @형지현-n7n
      @형지현-n7n 2 года назад

      제가 실행했을 때는 html에서 span이 안 나오는데, naver에서 막아놓은 건가요?..?

    • @chobocoding
      @chobocoding  2 года назад

      다른 사이트에서도 동일한 현상이 있나요?

  • @뇽뇽-j7n
    @뇽뇽-j7n 3 года назад +1

    사랑합니다 한참 찾았는데 겨우 찾았네요
    혹시 이거 왜 이렇게 되는지 알 수 있을까요 ㅠㅠ 아무리해도 안되네요
    File "".line 3
    pro = ButifulSoup(req.content. "html.parser")
    SyntaxError: invalid syntax

    • @chobocoding
      @chobocoding  3 года назад +1

      req.content다음에 콤마입니다

    • @뇽뇽-j7n
      @뇽뇽-j7n 3 года назад +1

      @@chobocoding 감사합니다!! ㅜㅜㅜ 드디어 해결했어요 ㅠㅠㅠㅠ 2틀동안 해결 못해서 고생하고 있었거든요 ㅠㅠ 구독했습니다 공부에 도움이 많이 될 것 같아요!

  • @Evebnhd
    @Evebnhd 3 года назад +1

    soup변수에 find 함수를써서 'span'으로 실행을했는데 아무동작도 안하는거는 왜 그런건가요ㅠ.ㅠ

    • @chobocoding
      @chobocoding  3 года назад

      코드를 어떻게 적으셨나요?

  • @TodayAlicia
    @TodayAlicia 3 года назад +1

    url불러올때 응답이 너무 느려서 [WinError10060]이 발생는데, 이럴 때는 어떤 방법이 있을까요?

    • @chobocoding
      @chobocoding  3 года назад

      저도 말씀하시는 부분의 해결책을 잘 모르겠습니다 ㅠㅠ 구글링을 통해 해결방법을 찾아보셔야할 듯 합니다.

  • @ykk6763
    @ykk6763 3 года назад +1

    자동으로 다음페이지로 넘기면서 크롤링 하는 방법도 있을까요?

    • @chobocoding
      @chobocoding  3 года назад

      그렇게 하시려면 selenium을 이용하면 됩니다.

    • @ykk6763
      @ykk6763 3 года назад

      @@chobocoding 정말 빨리 답변해주시네요!!!! 감사합니다!!!!!!!!!!

  • @pj22_56
    @pj22_56 2 года назад +1

    알려주신대로 했는데 줄바꿈 '
    ' 이 붙는 건 어떻게 지울 수 있을까요?

    • @chobocoding
      @chobocoding  2 года назад

      문자열의 마지막 글자를 지우는 코드를 넣으면 될 거라 생각합니다~
      a = "hello
      "
      a = a[:-1]

    • @pj22_56
      @pj22_56 2 года назад

      @@chobocoding 영상 도움 많이 됐어요 감사해요
      질문 하나 더 드려도 될까요?
      print(soup)에서는 사이트 전체 데이터가 다 나오는데 table이 총 4개인데 soup.find("table") 하면 첫 번째 table에 대해서만 나오는건 어떻게 해야하나요?

    • @chobocoding
      @chobocoding  2 года назад

      seungjuitmemo.tistory.com/203
      find_all 함수를 사용해 보세요, 위의 링크 한번 보시구요.

    • @pj22_56
      @pj22_56 2 года назад

      @@chobocoding 진짜 친절하세요 감사합니다 ㅠㅠ 많은 도움 얻고 가요!!

  • @7mikekim2
    @7mikekim2 2 года назад

    tbody가 여러개라 문젭니다 으으

    • @7mikekim2
      @7mikekim2 2 года назад

      그냥 갯수 세서 하기로 함요

    • @7mikekim2
      @7mikekim2 2 года назад

      아 이게 페이지 바뀌니까 에러