통계데이터분석 - 일반선형모델 - 다항 로지스틱회귀분석 🔑 multinomial logistic regression analysis | 세 개 이상의 범주 | 로그오즈

Поделиться
HTML-код
  • Опубликовано: 12 янв 2025

Комментарии • 12

  • @권소현-s1w
    @권소현-s1w 3 года назад

    R studio로 실습하며 강의 듣고있습니다~ 해석까지 해주시니 공부하는데 많은 도움이 됩니다. 감사합니다!!

  • @푸키푸키-w2f
    @푸키푸키-w2f 2 года назад

    정말 좋은 강의 감사드립니다.

  • @mtanggle
    @mtanggle 3 года назад

    훌륭한 강의 정말 감사드립니다.

  • @박영빈-p9l
    @박영빈-p9l 3 года назад +1

    좋은 강의 감사합니다! 몇가지 질문사항이 있어서 질문 남깁니다.
    1. 다중 로지스틱회귀분석은 다중공선성을 어떻게 확인하나요?
    2. 선형회귀분석에 기본 가정이 있는 것처럼 로지스틱 회귀모형도 이를 만족해야하나요?
    3. 현재 데이터가 한 개 변수 제외하고 모두 chr 변수인데 데이터 타입을 모두 factor 형으로 변환해야 분석에 편한가요?
    4. Democrat와 Independent의 비교는 어떻게 하나요?
    이상입니다. 감사합니다.

    • @kykwahk
      @kykwahk  3 года назад +1

      1. 다중 로지스틱회귀분석은 다중공선성을 어떻게 확인하나요?
      -> 다중공선성은 독립변수 간의 관련성을 의미하기 때문에 로지스틱회귀분석이라고 해서 달라질 것은 없습니다. 일반적인 다중공선성을 확인하는 방법으로 하면 됩니다.
      2. 선형회귀분석에 기본 가정이 있는 것처럼 로지스틱 회귀모형도 이를 만족해야하나요?
      -> 링크함수로 로짓변환을 하여 독립변수의 선형결합으로 종속변수를 나타내면 변환 후의 모델은 선형모델이 됩니다. 그렇게 때문에 변환 후 모델에는 동일한 가정이 적용될 수 있습니다.
      3. 현재 데이터가 한 개 변수 제외하고 모두 chr 변수인데 데이터 타입을 모두 factor 형으로 변환해야 분석에 편한가요?
      -> 문자형 데이터로는 분석이 가능하지 않습니다. 팩터로 변환해야 합니다.
      4. Democrat와 Independent의 비교는 어떻게 하나요?
      -> 오즈비를 이용하여 어떤 한 범주에 속할 확률이 기준 범주에 속할 확률 대비 몇 배나 큰지 혹은 작은지 평가할 수 있습니다.

    • @박영빈-v1o
      @박영빈-v1o 3 года назад

      @@kykwahk 답변 감사합니다!
      종속변수 독립변수 모두 factor형인 상태에서는 vif()을 실행하면 오류가 발생합니다. 혹시 몰라서 독립변수 모두 factor형에서 수치형 변수로 변환 후에 실행을 하면 NaN가 발생합니다. 어디에서 잘못된 것일까요?
      ###### 독립변수가 factor형인 상태에서 돌릴 때의 오류 #####
      > vif(pid.mlogit)
      Error in which(assign == term) :
      'list' object cannot be coerced to type 'integer'
      In addition: Warning message:
      In vif.default(pid.mlogit) : No intercept: vifs may not be sensible.
      ###### 독립변수를 모두 수치형으로 바꾸고 돌릴 때의 경고문#####
      Warning message:
      In vif.default(pid.mlogit1) : No intercept: vifs may not be sensible.
      그리고 회귀 모형의 유의성을 판단하고 싶은데 summary() 결과로 나온 "Residual deviance"를 어떻게 판별해야하는지 궁금합니다.

  • @deargmai
    @deargmai 2 года назад

    교수님 궁금한 것이 있습니다.
    1. predict함수의 옵션 newdata에 test데이터셋을 입력하기도 하고 어떤 때는 반응변수를 제외한 test[,-'반응변수']로 적기도 하시는 것 같습니다. 둘 다 무관한 건가요?
    2. 강의 앞부분에서는 전처리시 표준화 언급을 하지 않으셨는데 뒷부분에서는 표준화를 진행하셨습니다. 보통 데이터셋에서 변수들의 스케일 차이는 보통인 것 같은데, 그러면 표준화를 진행하는 것이 바람직한 것인가요?

    • @kykwahk
      @kykwahk  2 года назад

      1. 사용하는 모델마다 다를 수 있습니다. predict() 함수를 호출해서 사용하지만 실제로는 사용하는 모델에 따라 다른 하위함수(메소드라고 합니다)가 호출됩니다. 예를 들면, methods() 함수를 사용하면 다음과 같이 일부를 볼 수 있습니다.
      > methods(predict)
      [1] predict.ar* predict.Arima* predict.arima0*
      [4] predict.glm predict.HoltWinters* predict.lm
      [7] predict.loess* predict.mlm* predict.nls*
      [10] predict.poly* predict.ppr* predict.prcomp*
      [13] predict.princomp* predict.smooth.spline* predict.smooth.spline.fit*
      [16] predict.StructTS*
      각 메소드의 도움말을 참고하시면 됩니다. 여기에는 안 나와있지만, 예를 들면, svm() 함수를 이용하여 SVM모델을 구축하여 예측할 때도 predict() 함수를 사용합니다만 내부적으로는 predict.svm() 함수가 호출됩니다. naiveBayes() 함수를 사용하여 naiveBayes모델을 구축하고 예측할 때는 동일한 predict() 함수라 하더라도 predict.naiveBayes()가 호출되고요.
      2. 일반적으로 변수 간 측정 단위가 다르면 표준화시키는 것이 바람직합니다.

    • @deargmai
      @deargmai 2 года назад

      @@kykwahk 답변 감사드립니다

  • @백경민-j1l
    @백경민-j1l 3 года назад

    교수님 훈련 데이터셋과 테스트 데이터셋을 구분하는 방법에 대해 궁금사항이 있습니다.
    34강에서는 CreateDataPartition으로 훈련 데이터셋과 테스트 데이터 셋에 대해 비율의 차이가 없게끔 조정하였고
    35강에서는 sample을 사용하여 훈련 데이터셋과 테스트 데이터셋을 구분하였습니다.
    sample을 사용할 경우 두 데이터 셋의 비율의 차이가 느껴진다면 이 역시 분포의 동일성 검정을 수행하고 난수 변경 등을 통해서 다시 뽑아야한다고 생각합니다.
    그렇다면 훈련/테스트 데이터셋을 구분할 때 CreateDataPartition로 통일해서 사용하는것이 맞는 방법으로 봐도 괜찮을까요

    • @kykwahk
      @kykwahk  3 года назад +1

      훈련 데이터셋과 테스트 데이터셋을 생성하는 방법을 가능한 다양하게 소개하기 위해 서로 다른 방법으로 다루어봤습니다. 소개된 두 방법 가운데 어느 한 방법이 맞다고 단정적으로 얘기하기는 어렵습니다. 테스트 데이터는 일반화 가능성을 확인하기 위해 사용되는 것이기 때문에 만약 교차검증(cross-validation)을 할 경우 현실 세계에서 나타날 수 있는 다양한 무작위적 요소를 반영하는 것이 좋을 수도 있습니다.

    • @백경민-j1l
      @백경민-j1l 3 года назад

      @@kykwahk 답변 정말 감사드립니다!! 데이터 셋에 대한 교차검증이 중요하겠네요.. 데이터 분석으로 진로를 잡고 막막했는데 좋은 강의 들으며 공부할 수 있네요 ㅎㅎ