[빅데이터 분석 원데이 클래스 - 기초반] 5.뉴스데이터 분석

Поделиться
HTML-код
  • Опубликовано: 13 янв 2025

Комментарии • 11

  • @주넌쌤의수어놀이터
    @주넌쌤의수어놀이터 2 года назад +3

    복잡한 명령어도 패들렛으로 제공해주시고 상세하게 실습장면과 함께 설명해주셔서 감사합니다. 워드클라우드로 핵심어가 잘 정리되어 보여지게 되니 참 유용한것 같습니다. ^^*

    • @공부할랩
      @공부할랩  2 года назад +2

      매번 영상 봐주시고 좋은 말씀 남겨주셔서 감사합니다.^^ 선생님의 수어놀이터 채널에도 자주 방문할게요~ 감사합니다.^^

  • @비내리는아침
    @비내리는아침 3 месяца назад +1

    ❤❤❤

  • @brotherq7812
    @brotherq7812 2 года назад +1

    안녕하세요! 공부할랩 애청자입니다! 텍스트 분석을 위해 이번 영상을 보았는데, 잘 분석이 되어서 큰 도움이 되었습니다. 다만 하나 질문을 드려도 될까요? 알려주신 명령어로 진행을 했는데, 단어가 너무 잘게 쪼개지는 것 같아서요. 이를테면 돌봄서비스라는 단어가 많아서 돌봄서비스가 나올줄 알았는데, 돌봄 단어와 서비스 단어가 따로따로 분리가 되어 분석되어서요! 혹시 돌봄서비스 이렇게 붙여서 나오게 하는 방법이 있을까요? 애초에 돌봄띄고 서비스 이렇게 작성되어 있지도 않았어서요. 어떻게 해야할지 몰라 여쭤봅니다.

    • @공부할랩
      @공부할랩  2 года назад

      관심있게 지켜봐주셔서 감사합니다. 해당 실습영상에서는 명사를 추출하기 위하여 okt라는 형태소 분석기를 사용하였습니다. 즉, 형태소 분석기에 등록된 명사 사전에 의해 단어를 분리합니다. 그래서 '돌봄서비스'와 같이 합성된 단어는 사전 정의에 따라 각각의 낱말로 쪼개집니다. 이를 해결하기 위해서 사용자 사전을 등록하여 분석하는 방법이 있습니다. 필요한 단어를 강제로 지정하여 분리되지 않게 하는 방법인데요. 조만간 실습자료를 만들어 블로그와 영상 더보기 란을 통해 공유하도록 하겠습니다. 앞으로도 많은 관심 부탁드립니다. 감사합니다.

    • @brotherq7812
      @brotherq7812 2 года назад

      @@공부할랩 감사합니다!!!

  • @yeori9240
    @yeori9240 2 года назад

    선생님 안녕하세요. 올려주신 코드로 예제를 실행해 보는데, 오류가 나왔습니다. 혹 어떻게 처리하면 좋을까요? ㅠㅠ검색을 하여도 해결하기 어려워 여쭙습니다. 감사합니다.
    ---------------------------------------------------------------------------NameError Traceback (most recent call last) in 1 #'본문'에서 '명사'만 추출하기 2 okt = Okt()----> 3 extract = okt.nouns(text2)NameError: name 'text2' is not defined

    • @공부할랩
      @공부할랩  2 года назад

      안녕하세요. #'본문'에서 명사만 추출하기 코드 바로 위에 있는 #엑셀파일에서 '본문' 추출하기 코드가 실행되지 않은 것 같습니다. text2가 위에서 먼저 실행되고 넘어와야 해당 라인에서 text2를 활용하여 분석을 할 수 있습니다. 즉, 순서대로 코드가 실행되지 않으면 아래 코드도 실행이 안되므로 위에서 부터 차례로 실행하면서 진행해보시면 해결 하실 수 있을 것 같습니다.

    • @yeori9240
      @yeori9240 2 года назад +1

      @@공부할랩 감사합니다^^ 해결하였습니다. 선생님 혹시 알려주신 코드에서 명사를 빈도순서대로 리스트업하고 각 단어에 대한 가중치를 구하려면 혹시 어떻게 하면 될까요?

    • @공부할랩
      @공부할랩  2 года назад

      @@yeori9240 해결하셨다니 다행이네요. 코드셀 실행의 문제였는지 아니면 다른 문제였는지 궁금하네요. 본 실습에서는 텍스트 분석의 가장 기초적인 내용으로 명사 추출 후 빈도로 워드클라우드를 생성하기까지만 구성하였습니다. TF, IDF나 topic modeling에서 사용하는 가중치 부여는 이 코드로는 추출하지 못합니다. 여러 행에 있는 텍스트를 하나의 단어 뭉치로 묶었기 때문입니다. 추후 토픽모델링 등 고급 분석 방법 실습 영상도 만들어 보겠습니다. 감사합니다.

    • @yeori9240
      @yeori9240 2 года назад +1

      @@공부할랩 제가 뉴스기사를 10년 이상의 자료를 추출하여 돌리다 보니, 용량이 많아 문제가 발생된 것 같았습니다. 데이터를 나누어 다시 돌려보니 오류가 없었습니다. 토픽모델링이나 감성분석 같은 것도 상세히 알려주시면 잘 활용해 보겠습니다. 유익한 내용 공유하여 주셔서 감사 드립니다 :)