군집 분석 Cluster Analysis

Поделиться
HTML-код
  • Опубликовано: 20 сен 2024
  • 자연어 처리 Natural Language Processing
    군집 분석 Cluster Analysis
    Word2Vec 생성, scikit-learn, 계층적 군집화, 병합 군집, 비계층적 군집화, k-Means
    Colab: colab.research...
    이수안 컴퓨터 연구소 (SuanLab)
    www.suanlab.com

Комментарии • 12

  • @yjn1423
    @yjn1423 Год назад +2

    genism 버전 때문에 word2vec.wv.vocab 사용 안 돼서 직접 만든 코드입니다.
    import numpy as np
    import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as plt
    plt.style.use('ggplot')
    vocab = word2vec.wv.key_to_index
    #vocab
    def similarity(vocab):
    a = []
    for k,v in vocab.items():
    sim = word2vec.wv[str(k)]
    a.append(sim)
    return np.array(a)
    similarity = similarity(vocab)
    similarity
    transform_similarity = tsne.fit_transform(similarity)
    df = pd.DataFrame(data=transform_similarity, columns = ['x', 'y'])
    df[:10]
    sns.lmplot(data = df, x = 'x', y = 'y', fit_reg=False, scatter_kws={'alpha':0.7, 's':7})
    plt.show();
    위와 같은 코드를 사용하시면 됩니다. ^^

  • @woohyunhan8495
    @woohyunhan8495 2 года назад +1

    교수님 안녕하세요 너무 좋은 강의를 이렇게 들을 수 있도록 해주시어 너무너무 감사드립니다.
    [질문]
    덴드로그램을 엑셀로 내보내서 최종 결과물을 활용할 수 있도록 하는 걸 본적이 있는데요.
    각 계층도는 이미지로, 결과는 엑셀의 해당셀에 값이 출력될 수 있도록 방법이 있을까요?
    R 프로그램에서는 가능하다고도 들었던 것 같은데, 파이썬으로도 가능할런지요?

    • @suanlab
      @suanlab  2 года назад

      네, 파이썬에서도 덴드로그램 결과를 export 할 수 있습니다. 시각화 한다는 것은 그리기 위한 데이터가 있는거죠. ^^

  • @고명범-q7s
    @고명범-q7s 2 года назад +2

    genaim 4.0 쓰면 word2vec.wv.vocab 사용 못 합니다
    유사한 메서드 아무리 써도 벡터화된 수치가 안 나오는데 어떻게 해결하나요?

    • @suanlab
      @suanlab  2 года назад +1

      현재 colab에서 버전 문제로 동작 안하는 것 같아요.

    • @고명범-q7s
      @고명범-q7s 2 года назад +2

      gensim 4.0부터는 해당 메서드가 삭제된 듯 합니다.
      코렙 말고 로컬 환경에서 파이썬 3.7로 낮추고 jdk 11로 셋팅하고 gensim 버전 3.8.3으로 하니까 동작하네요
      저처럼 에러 해결하느라 하루종일 해결하시지 마시고 gensim 버전 꼭 낮춰서 사용하세요!!

    • @user-cl8hb7rb4c
      @user-cl8hb7rb4c 2 года назад +1

      오! 꿀팁까지 감사합니다. ^^

  • @youngbin567
    @youngbin567 2 года назад +1

    비지도 학습을 새로 공부하기 시작한 학생입니다. 먼저 영상 너무 감사합니다. 여쭤보고 싶은게 있는데 혹시 영어단어로도 실험해보고 싶은데 데이터를 어떤 것을 사용해보면 좋을 까요? 그냥 여러 문장이 담긴 책 데이터 이런것으로도 가능할 까요? 아 그리고 각 클러스터의 의미도 궁금하네요. 영화리뷰로 예시를 둔 것이였으니 각 클러스터를 '리뷰 할 때 유사한 단어로 한 유저 모음'이라고 봐도 되나요??

    • @suanlab
      @suanlab  2 года назад +1

      영어 단어로도 당연히 가능합니다. 책 데이터도 가능하죠. 클러스터는 무엇을 기준으로 했는지에 따라 다르지만 유사성에 따른 군집인거죠. 영화 리뷰는 텍스트 유사성에 따라 형성된 클러스터입니다. 넓은 의미로는 리뷰를 작성한 유저의 모음이나 영화의 모음으로 볼수도 있겠지요. ^^

    • @youngbin567
      @youngbin567 2 года назад

      @@suanlab 답변 감사합니다!! 얼른 해봐야 겠네요.

  • @rok3898
    @rok3898 3 года назад +1

    감사합니다 선생님.

    • @suanlab
      @suanlab  3 года назад

      넵 감사합니다 ^^