통계데이터분석 - 회귀분석 - 단순회귀분석 🔑 simple regression analysis | 한 개의 독립변수 | 최소자승법(least-squares method)

Поделиться
HTML-код
  • Опубликовано: 21 сен 2024
  • [R을 이용한 통계데이터분석]
    회귀분석(regression analysis)은 변수(독립변수 및 종속변수) 간의 연관성을 분석하는 통계기법입니다. 변수 간의 관계를 나타내는 직선을 회귀선(regression line)이라고 하며 이를 나타내는 방정식을 선형회귀모델(linear regression model) 또는 선형회귀식(linear regression equation)이라고 합니다. 단순선형회귀분석(simple linear regression analysis) 또는 간단히 단순회귀분석은 한 개의 연속형 독립변수를 이용하여 한 개의 연속형 종속변수를 예측합니다. 다음과 같은 함수에 대한 설명이 포함되어 있습니다: lm(), summary(), coef(), anova(), confint(), fitted(), resid(), predict().
    📢 R과 RStudio 설치는 'R 프로그래밍 / R 기초 - 설치' 강좌를 참고하세요( • R 프로그래밍 / R 기초 - 설치 🔑 ... ).
    📚 『곽기영』 채널의 동영상 강의는 다음 도서를 바탕으로 하고 있습니다. 책의 목차를 포함한 책자에 대한 소개는 도서명 옆의 링크를 참고해주세요. 💕
    『R 기초와 활용』 (product.kyobob...)
    『R을 이용한 통계데이터분석』 (product.kyobob...)
    『R을 이용한 머신러닝과 텍스트마이닝』 (product.kyobob...)
    『R을 이용한 웹스크레이핑과 데이터분석』 (product.kyobob...)
    『SPSS를 이용한 통계데이터분석』 (product.kyobob...)
    『소셜네트워크분석』 (product.kyobob...)
    #R프로그래밍 #데이터분석 #통계 #머신러닝 #데이터애널리틱스 #데이터사이언스

Комментарии • 16

  • @sohye_lee
    @sohye_lee 3 года назад +1

    데이터 아날리틱스 공부 중인데 정말 너무 큰 도움됩니다. 좋은 강의 많이 올려주세요. 구독 누르고 가요!

  • @johnzhang8968
    @johnzhang8968 3 года назад

    Thanks...

  • @으어억-f5q
    @으어억-f5q 2 года назад

    회귀 분석의 기본 가정들(잔차의 정규성, 등분산성 등)은 실제 분석할 때에 따로 확인하지 않는 건가요?
    r에서 제공하는 함수가 그 가정들을 만족시키는 모델을 만들어주는 건지, 분석자가 따로 검정해봐야 하는 건지 궁금합니다. 영상 잘 보고 있습니다. 양질의 강의 감사합니다 교수님.

    • @kykwahk
      @kykwahk  2 года назад +1

      회귀분석 결과의 신뢰성을 높이기 위해서는 기본 가정들을 분석자가 별도로 확인할 필요가 있습니다. R에서 제공하는 함수의 도움을 받을 수도 있고요 분석자 스스로 데이터 변환을 통해 가정을 어느 정도 충족하는 모델을 만들 수도 있습니다.

    • @으어억-f5q
      @으어억-f5q 2 года назад

      @@kykwahk 답변 감사합니다 교수님. 그런데 신뢰성을 높이기 위함이라면, 기본 가정을 충족하지 못하는 모델도 그냥저냥 쓸 수는 있다는 뜻일까요? 예를 들어, 강의 예시의 Prestige.lm 모델의 경우 기본 가정을 충족하지 못하지만 나름 의미있는 모델로 활용할 수 있는 건지 궁금합니다.

  • @상도-y3k
    @상도-y3k 3 года назад

    안녕하세요. 강의 잘 듣고 있습니다. 궁금한 점이 있어 문의 드립니다.
    이전 강좌를 통해 분산분석(aov)는 이해를 했는데,
    회귀모델에 대한 분산분석표를 얻기 위해 anova(Prestige.lm) 를 사용한다고 되어 있는데
    집단간 분산 education에 대한 자유도(Df)가 1이고
    집단내 분산 Residuals 100으로 되어 있는데
    education은 연속형 변수인데 자유도 1, 100이 어디서 나온 것인지요?
    이 부분이 이해가 안가서요.
    항상 감사합니다.

    • @kykwahk
      @kykwahk  3 года назад +1

      회귀분석의 분산분석표를 분산분석의 개념과 연결하여 직관적으로만 살펴보면 궁금해 하시는 분산분석표의 자유도는 이렇게 도출될 수 있습니다.
      분산분석은 집단간의 종속변수의 평균에 있어서 차이가 있는지 검정합니다. 회귀분석을 분산분석의 관점에서 본다면 집단이란 독립변수를 갖는 모델과 아무런 독립변수도 포함하지 않는 모델(즉 절편만을 갖고 있는 모델)을 의미합니다. 여기에서 독립변수가 한 개이므로 집단의 개수는 2개이고 집단간 분산의 자유도는 , 즉 2-1=1이 됩니다. 또한 여기에서 표본개수는 102이므로 집단내 분산의 자유도는 , 즉 102-2=100이 됩니다.
      만약 독립변수의 개수가 3개인 다중회귀분석을 수행했다면, 집단간 분산의 자유도는 3(=4-1)이 되고 집단 내 분산은 98(=102-4)이 됩니다. 분산분석의 관점에서 보면 여기에서 집단은 모두 4개입니다(절편만을 갖는 모델 + 각 독립변수에 의한 모델).
      회귀분석과 분산분석은 사실 동일한 통계모델입니다. 예를 들어, 범주형 변수를 독립변수로 사용한 분산분석 모델은 범주형 변수를 더미변수로 변환하여 동일한 회귀분석 모델로 만들 수 있습니다. 그 분석 결과 또한 같습니다.

    • @상도-y3k
      @상도-y3k 3 года назад

      @@kykwahk 아 정말 감사합니다. 독립변수의 갯수에 따라 자유도가 결정되는 것이었네요. 다시 한번 감사합니다

  • @yjn1423
    @yjn1423 3 года назад

    x값이 0인 경우가 의미가 있지 않는 한 -2853.6$ 이다. 라고 해석하는 것은 불가능하다라고 하신 말씀이 이해가 잘 안됩니다. 어떨 때 x값이 0인게 의미가 있는 경우고, 어떨 때 x값이 0인게 의미가 없는 경우인가요?

    • @kykwahk
      @kykwahk  3 года назад +1

      예를 들어, 몸무게와 키 간의 관계를 분석하여 다음과 같은 회귀식을 도출했다고 가정해보겠습니다.
      y(몸무게)=-115 + 1.1*x(키)
      이때 키가 0일 수는 없기 때문에 이 회귀식을 이용해서 키가 0일 때의 몸무게에 대해 의미를 부여해서는 안 됩니다. 즉 키가 0일 때의 몸무게 -115kg에 실질적인 의미를 부여해서는 안 된다는 뜻입니다.
      회귀식의 활용과 관련하여 주의해야 할 점 가운데 하나는 독립변수의 값이 관측된 데이터 범위를 벗어날 때는 회귀식을 이용하여 종속변수의 값을 예측해서는 안 된다는 것입니다. 회귀식을 이용하여 종속변수를 예측할 때 독립변수의 값 x=0이 의미가 있으려면 회귀식을 도출할 때 사용한 관측값의 범위에 그 값이 포함되어 있어야 합니다.

  • @쭈웨리
    @쭈웨리 2 года назад

    설명 감사합니다! 그런데 변수에 자연로그를 씌웠을 때 마이너스가 되는 경우에도 선형회귀분석이 가능할까요? 독립변수(이윤)가 0.01이라 로그 변환을 했을 때 음수가 나와서요.

    • @kykwahk
      @kykwahk  2 года назад

      네~ 가능합니다.

    • @쭈웨리
      @쭈웨리 2 года назад

      @@kykwahk 교수님 감사합니다. 실례지만, 질문 한 가지 더 드려도 될까요?
      예컨대 소득->소비에 미치는 영향으로 회귀분석을 할 때 소비는 (식비, 의복비, 주류비) 이렇게 구성되어 있습니다. 소득의 변화가 소비의 변화에 미치는 영향을 내부에 각 식비, 의복비, 주류비의 변화가 차지하는 정도(영향)를 보고 싶을 때는 어떤 모형으로 회귀분석을 해야 할까요?

  • @마루나라-n7s
    @마루나라-n7s 2 года назад

    안녕하세요 교수님! 많은 강의들이 정말 도움이 많이 되고 있습니다:) 다름이 아니라 저는 csv파일을 불러와 df로 저장한 후 단순선형회귀모델을 돌려보았는데 summary를 실행했을 때 제가 지정한 독립변수 하나에대한 회귀계수 설명이 아닌 독립변수 값의 개수만큼, (x=education이면 education1,education12......)이런 식으로 결과가 나옵니다..그래서 abline()을 실행했을때 only using the first two of 94 regression coefficients 이라는 에러가 뜹니다.. 해당 내용은 csv파일로 불러온 데이터에대해서만 에러가 나옵니다..뭔가 추가적으로 데이터를 처리해야 하는게 있을지 문의드립니다!

    • @kykwahk
      @kykwahk  2 года назад +1

      데이터셋이나 모델을 보지 않은 상태에서 정확한 이유를 말씀 드리기는 어려울 것 같습니다만 데이터를 불러오는 과정에 문제가 있거나 모델 설정에 오류가 있는 듯 싶습니다.

    • @마루나라-n7s
      @마루나라-n7s 2 года назад

      @@kykwahk 데이터셋 저장방법을 달리 하니 해결되었습니다. 감사합니다:)