통계데이터분석 - 차원분석 - 요인분석(FA) 🔑 factor analysis | 공통요인 | 요인적재값(factor loading) | 요인점수(factor score) | 회전

Поделиться
HTML-код
  • Опубликовано: 21 сен 2024
  • [R을 이용한 통계데이터분석]
    요인분석(factor analysis, FA)은 관측 가능한 여러 변수로부터 소수의 요인(factor)을 추출하여 이 요인들을 통해 변수 간의 관련성을 설명하려는 통계데이터분석 기법입니다. 예를 들어, 제품에 대한 소비자 평가를 위한 20개의 평가 설문항목은 제품품질, 제품서비스, 제품가치 등과 같은 세 가지 잠재요인의 함수로서 표현할 수 있습니다. 요인분석은 이처럼 여러 관측변수로부터 직접적으로 관측 가능하지 않은 공통의 요인을 추출하는 데 이용됩니다. 다음과 같은 함수에 대한 설명이 포함되어 있습니다: fa.parallel(), nScree(), eigen(), factanal(), factor.plot(), heatmap.2(), semPaths().
    📢 R과 RStudio 설치는 'R 프로그래밍 / R 기초 - 설치' 강좌를 참고하세요( • R 프로그래밍 / R 기초 - 설치 🔑 ... ).
    📚 『곽기영』 채널의 동영상 강의는 다음 도서를 바탕으로 하고 있습니다. 책의 목차를 포함한 책자에 대한 소개는 도서명 옆의 링크를 참고해주세요. 💕
    『R 기초와 활용』 (product.kyobob...)
    『R을 이용한 통계데이터분석』 (product.kyobob...)
    『R을 이용한 머신러닝과 텍스트마이닝』 (product.kyobob...)
    『R을 이용한 웹스크레이핑과 데이터분석』 (product.kyobob...)
    『SPSS를 이용한 통계데이터분석』 (product.kyobob...)
    『소셜네트워크분석』 (product.kyobob...)
    #R프로그래밍 #데이터분석 #통계 #머신러닝 #데이터애널리틱스 #데이터사이언스

Комментарии • 19

  • @z0108174
    @z0108174 3 года назад +3

    곽기영 교수님 수업을 듣는 학생들은 좋겠네요 이런 질좋은 강의를 현강으로 들을 수 있어서.. 명확한 개념을 잡고 갑니다 감사합니다

  • @gahyeonlee2148
    @gahyeonlee2148 3 месяца назад

    교수님 덕분에 기말과제 잘준비할수있었습니다 감사합니다!!!!

    • @kykwahk
      @kykwahk  3 месяца назад

      감사합니다~^^ 도움이 되셨다니 저도 기쁘네요 😎

  • @sosohappylog
    @sosohappylog 2 года назад

    이런강의를 무료로 나눠주시다니 너무너무 감사합니다 교수님....!!! 👍🏼

  • @wolfdate25
    @wolfdate25 Год назад

    한번 궁금해서 클릭해봤는데 유익한 것 같습니다 구독합니다

    • @kykwahk
      @kykwahk  Год назад

      감사합니다~^^

  • @이끼-t9o
    @이끼-t9o 3 года назад

    교수님 강의 감사히 잘 듣고 있습니다! 이번 강의를 듣고 제 데이터로 분석 중에 궁금한 점이 생겨 여쭙습니다! factanal 함수에서 요인의 갯수를 3을 넣었는데 이 초기값으로부터는 최적화된 솔루션을 찾을 수 없습니다 라는 문구가 뜹니다. 혹시 요인의 갯수가 너무 많아서 그런 것이 아닌가 싶었는데 4, 6 등을 넣었을 때는 함수가 수행되어 여쭙숩니다.. 항상 감사드립니다!

    • @kykwahk
      @kykwahk  3 года назад

      fa.parallel() 함수, nScree() 함수, eigen() 함수 등을 이용하여 적정 요인의 개수를 먼저 테스트해보세요.

  • @왓더헬스
    @왓더헬스 3 года назад

    항상 좋은 강의 감사합니다 교수님!!
    이번강의에서는 factanal() 함수를 통해 요인
    분석을 진행해주셨는데 요인분석 함수중
    Princial() 함수또한 있는걸로 알고있습니다
    둘중 많이 쓰는 함수는 무엇인가요??
    추가적인 상관없는 질문이지만 차원축소분석중 정준상관분석(cca)을 r을 통해 배워보고싶은데 참고할만한 서적 추천해주실수 있으신가요??

    • @kykwahk
      @kykwahk  3 года назад

      1. "Princial() 함수"라고 하셨는데요... 아마도 psych 패키지에 포함된 principal() 함수를 말씀하신 것 같습니다. 그런데 principal() 함수는 요인분석(factor analysis, FA)을 수행하는 것은 아니고요, 주성분분석(principal component analysis, PCA)을 수행합니다. psych 패키지에는 요인분석을 수행하는 함수로서 fa()가 있습니다. 요인분석과 주성분분석은 기본적으로 서로 다른 통계모델입니다.
      2. 참고하실 만한 책은 아마존 사이트나 구글을 통해 검색하시는 것이 좋을 듯 싶습니다. 필요에 따라 원하는 내용이 다를 수 있어서 학습 목적을 구체적으로 모르는 제가 추천하는 것은 적절하지 않을 것 같아서요.

    • @왓더헬스
      @왓더헬스 3 года назад

      @@kykwahk 네 감사합니다!!

  • @고해로
    @고해로 Год назад

    교수님 강의 늘 감사드립니다.^^ 두가지 질문 드려봅니다.
    1. factanal()함수에서 rotation ="varimax"했을때 강의와 결과가 같고, rotation ="none"했을때 결과가 달라지는데요.
    rotation을 따로 적지않으면 회전이 자동설정되는 것 같습니다.
    제가 궁금한 것은 요인분석시에 일반적으로 회전은 기본적으로 하는것으로 보면 될까요? 그리고 가장 많이 쓰는 방법이"varimax"으로 보면 될까요?
    2. 분석결과에서 모형의 적합성?을 검정하는 기준이 있을까요? 결과 마지막에 카이제곱통계량과 p-value가 나오는데요. 이것인지 궁금합니다.

    • @kykwahk
      @kykwahk  Год назад +1

      1. 네~ factanal() 함수는 기본적으로 varimax 방식으로 rotation을 수행합니다. 일반적으로 많이 쓰는 방법입니다. 요인을 회전하는 이유는 해석의 용이성 때문입니다. 회전을 함으로써 요인과 변수 간의 요인적재값 행렬이 보다 '단순한 구조'(simple structure)로 만들어지고 상관관계를 갖는 변수들이 클러스터를 형성하여 특정 요인과의 관련성이 보다 잘 드러납니다. 이렇게 되면 각 요인에 로딩된 변수들로부터 해당 요인을 설명하는 공통적인 의미를 보다 쉽게 도출해낼 수 있습니다.
      2. 분석 결과의 마지막에 출력된 카이제곱통계랑과 p-값은 요인과 변수 간의 요인적재값 행렬로부터 재현된 상관계수 행렬과 실제 변수 간 상관계수 행렬 간에 차이가 없다는 귀무가설을 검정하는 카이제곱 적합도검정(chi-square goodness of fit)을 수행한 결과입니다. 이 카이제곱 적합도검정은 요인분석에서 충분한 요인을 추출했는지 검정하는 데 종종 사용됩니다. 검정 결과가 통계적으로 유의하면(예를 들어, 유의수준 0.05에서 p-값이 0.05보다 작으면 ) 더 많은 요인이 추출될 필요가 있다는 것을 의미합니다. 반면에 검정 결과가 통계적으로 유의하지 않으면 현재 추출한 요인으로 충분하다는 것을 뜻합니다.

    • @고해로
      @고해로 Год назад

      @@kykwahk 교수님 바쁘신데 상세히 설명해 주셔서 너무 감사합니다. ^^

  • @Gausse
    @Gausse Год назад

    교수님, 19:22 분경 나온 공통성 계산을 주성분 분석(PCA)에도 그대로 적용할 수 있을까요? 주성분 분석역시 성분적재량 값이 도출되는데, 해당 값을 기준으로 공통성을 산출해 공통성이 낮은 변수를 분석에서 제외해도되는지 궁금합니다.

    • @kykwahk
      @kykwahk  Год назад

      요인분석과 주성분분석은 전혀 다른 개념입니다. 말씀하신 방식으로 그렇게 사용할 수 없습니다. 주성분분석에서는 "공통성"이라는 개념이 존재하지 않습니다. 요인분석모델은 변수 안에 공통적인 잠재적 개념이 있다고 가정을 하고 그러한 잠재적 개념(즉 요인)을 추출합니다(요인이 변수를 설명하는 모델). 그래서 요인에 의해 설명되는 부분(즉 공통성)과 설명되지 못하는 부분이 존재합니다. 반면에 주성분분석모델에서 주성분은 변수들의 단순한 선형결합으로 표현됩니다. 선형결합이라는 것은 주성분을 만들기 위해서 각 변수들이 어느 정도의 비중으로 결합되어야 하는 가를 나타낸 것으로 이는 요인분석모델에서의 요인과 변수 간 관계와 다릅니다.

    • @Gausse
      @Gausse Год назад

      @@kykwahk 친절하고 자세한 답변 정말 감사합니다. 그렇다면 주성분 분석에서 변수들을 선택하는 기준이 있을까요? 검색을 해보아도 주성분의 개수(pc1, pc2..)를 결정하는 기준(scree plot, 분산)에 대한 설명만 나와있고, 변수 자체를 선택하는 기준에 대해서는 설명을 찾기가 힘들어서요.. 즉, 주성분 분석에서 제가 투입한 변수들간의 선형결합이 발생하게되는데, 이때 이 선형결합에 유의한 영향을 주지 못하는 변수들을 제거하고싶습니다. 다만, 이를 판단할 수 있는 통계적인 기준이나 근거가 있을까요?

    • @kykwahk
      @kykwahk  Год назад

      주성분분석은 기존 변수로부터 새로운 변수(주성분)를 추출하는 기법입니다. 머신러닝/데이터분석에서 예측변수가 많을 경우 성능에 영향을 미칠 수 있기 때문에 변수의 개수를 줄이게 되는데요, 여기에는 크게 변수선택(feature selection)과 변수추출(feature extraction) 기법이 있습니다. 변수선택 기법에는 여러 가지가 있을 수 있는데요, 예를 들어, 회귀분석을 할 때 전진선택/후진선택 등을 이용하여 설명력에 기여하는 정도를 기준으로 변수를 결정하는 방법도 그 중의 하나라고 볼 수 있습니다.
      반면에 주성분분석은 대표적인 변수추출 기법입니다. 이는 기존 변수의 개수를 줄이는 것이 아니고요, 기존 변수들을 바탕으로 새로운 변수를 만드는 겁니다(정확히 얘기하자면 고차원의 다수의 변수들을 저차원의 소수의 변수들로 변환). 따라서 주성분분석은 말씀하신 것처럼 변수를 제거하는 용도로 사용하지 않습니다. 주성분분석과 요인분석을 많은 사람들이 유사한 것으로 생각하고 혼동하는 경우가 많은데요, 앞서 말씀드린 대로 두 기법은 기본적으로 다른 통계모델입니다. 이러한 혼동은 요인분석에서 요인을 추출하는 방법으로 주성분분석을 많이 사용하기 때문이기도 합니다(주성분분석이 아닌 다른 방법으로 요인을 추출할 수도 있습니다).

    • @Gausse
      @Gausse Год назад

      감사합니다 교수님.