통계데이터분석 - 군집분석 - k-평균 군집분석 🔑 k-means cluster analysis | 분할적 군집분석 | k개 중심점

Поделиться
HTML-код
  • Опубликовано: 12 янв 2025

Комментарии • 10

  • @김어엉-h6w
    @김어엉-h6w 3 года назад +1

    군집분석에 대해 공부중이었는데 r로 알아듣기 쉽게 잘 설명해주셔서 도움이 많이 되었습니다 감사합니다 ☺️

  • @jongseokchoi9687
    @jongseokchoi9687 4 года назад +3

    안녕하세요? 곽 기 영 교수님의 강의를 빠짐없이 수강하고 있습니다.
    교수님의 제자들은 행복하겠습니다.
    제가 90년 초에 공부할 땐 꿈에도 상상치 못한 내용들을 현재 최악의 신체상황 속에서 마련된 다소 자유로운 시간들로 인해서 강의를 들을 수 있어 감사해 하고 있습니다.(재능 기부에 감사합니다.)
    최신 소식을 항상 기다리고 있습니다(오늘도 잽싸게 수강했습니다.). ^-^..
    파라미터에 대한 설명까지 자세히 해 주셔서 이해하기가 쉬웠으며, 응용도 가능해 졌습니다.
    감사합니다. ^-^.. (GitHub의 자료까지 다운받아 공부하고 있습니다.)
    최 종 석 올림.

  • @Gausse
    @Gausse Год назад

    교수님, 군집분석의 경우에도 변수의 독립성 가정이 필요할까요? 예를들어, 229개 시군구에 대해서 군집을 분석하고자 할 때, 2010년에서 2015년도의 시군구 자료들을 함께 군집분석을 돌려도 될까요? 예를들어, 2015 원주시, 2016원주시 등으로 데이터를 구축하여 군집분석을 돌려도 되는지 궁금합니다. 기존 회귀분석에서는 가정에 독립성 가정이 있기때문에 다른 연도의 데이터를 함께 분석하게된다면 시계열 자기상관 등 독립성 문제가 발생한다고 들었습니다. 이러한 가정이 군집분석에도 적용될까요?

    • @kykwahk
      @kykwahk  Год назад

      군집분석은 거리를 기반으로 군집을 식별하는 비지도학습(unsupervised learning) 알고리즘이기 때문에 추론통계의 영역에서 필요로 하는 통계적 가정은 필요 없습니다. 지금 분석하고자 하시는 것이 타당한지는 분석자가 판단하시면 됩니다. 예를 들어, 유클리드거리를 이용하여 군집분석을 한다고 하면 ‘모든 변수값 간 차이를 제곱하고 이를 모두 더한 후 제곱근을 취한 값’으로 거리를 측정할 텐데요, 그 거리가 의미 있는지를 생각하시면 됩니다. 2015출생률, 2016출생률, 2017출생률처럼 동일한 출생률 데이터가 연도만 달리하여 다른 변수로 설정되었을 때 이러한 변수 간 거리가 229개 시군구를 군집화하는데 의미가 있는지 살펴보시고 판단하시면 됩니다.

    • @Gausse
      @Gausse Год назад

      @@kykwahk 정말감사합니다 교수님. 교수님 께서 말씀해주신 "군집분석은 거리를 기반으로 군집을 식별하는 비지도학습(unsupervised learning) 알고리즘이기 때문에 추론통계의 영역에서 필요로 하는 통계적 가정은 필요 없습니다. " 라는 내용이 포함되어있는 교재나 논문이 있으면 추천해주시면 정말 정말 감사하겠습니다!!!

  • @0banana751
    @0banana751 2 года назад

    clusplot(x=data1, clus=clusterting.km $cluster, color = TRUE, shade=TRUE, labels = 2, lines=0, main='Cluster plot') 함수를 실행하고 나서 error가 떴어요.
    Error in plot.new() : figure margins too large
    이런 경우에 어떻게 해야 되나요? 알려주세요 ㅠㅠ

    • @kykwahk
      @kykwahk  2 года назад

      RStudio의 Plots 창 크기가 그래프에 비해 많이 작으면 그러한 문제가 생길 수 있습니다. 아래 세 가지 방법 가운데 하나를 사용해보세요.
      1. RStudio의 Plots 창 크기를 키운 후 다시 그래프를 생성합니다.
      2. RStudio의 Plots 창을 보면 빗자루 모양의 아이콘('Clear all Plots' 아이콘)이 있습니다. 그 아이콘을 클릭해서 기존의 생성된 그래프를 모두 지운 후 새로 그래프를 생성합니다. 또는 graphics.off() 함수를 실행해도 동일하게 그래프를 모두 삭제할 수 있습니다. graphics.off() 함수 실행 후 다시 그래프를 생성합니다.
      3. 별도의 외부 윈도우를 하나 열어서 그 윈도우에 그래프를 생성할 수 있습니다. 예를 들어, windows(width=12, height=8) 함수를 실행하여 12 X 8 크기의 윈도우를 생성한 후 그 윈도우상에 그래프를 그립니다.

    • @0banana751
      @0banana751 2 года назад

      @@kykwahk 알려주셔서 정말 정말 감사합니다!!!!첫번째 방법으로 해결되었습니다!!! 감사합니다. 멋지세요!!!

  • @왓더헬스
    @왓더헬스 3 года назад

    교수님 이번강의도 정말 감사드립니다!! 강의내용중에 kmeans를 통해 pca분석에서도 활용할수있다고 하셨는데 활용을할때 항목별 pc score 혹은 원데이터를 표준화 시킨 값들중 어떠한값을 쓰는게 적합한방법인가요??

    • @kykwahk
      @kykwahk  3 года назад

      여기 'k-평균 군집분석' 강의에서 그런 설명을 한 것은 아닙니다. k-평균 군집분석을 PCA분석에 활용할 수 있는 것이 아니고요 군집화 결과를 단지 PCA를 통해 나온 두 개의 주성분을 축으로 2차원상에 그래프상에 표현한 겁니다.