회귀분석(1) 단순회귀분석(Simple Regression) with SPSS [자막]

Поделиться
HTML-код
  • Опубликовано: 26 ноя 2024

Комментарии • 8

  • @정재호-p9t
    @정재호-p9t 2 года назад +2

    정말 쉽게, 자세하게 알려주셔서 감사합니다.

  • @joojuju
    @joojuju 2 года назад +2

    영상들 다 너무 좋아요 이해하는데에 큰 도움이 됩니다. 이런 영상 올려주셔서 감사합니다!!

  • @choihojo
    @choihojo 3 года назад +2

    1. 17:45에서 Y_i 와 Y-hat_i의 차이를 오차라고 하셨는데 7:23에서 하신 설명에 따르면 잔차라고 표현해야 하는 것 아닌가요?
    18:30 제곱합의 분해에서 SST = SSE (error) + SSR (reg)라고 하셨는데, SSE가 sum of squared errors의 약자가 아니라 sum of squared estimate of errors의 약자가 맞나요?
    그냥 error은 모집단의 회귀식에서 예측값과 관측값의 차이이고, residual (estimate of error)은 표본집단의 회귀식에서 예측값과 관측값의 차이로 이해해서요.
    2. RSE (residual standard error) = sqrt(RSS (residual sum of squared) / (n - 2))로 알고 있는데 잔차의 표준오차인 RSE가 왜 저런 식으로 구해지는지 알려주실 수 있나요?
    제가 평균의 표준오차 개념과 잔차의 표준오차 개념이 서로 혼동돼서 이해를 하지 못하고 있습니다.
    우선 통계적 추정에서 평균의 표준오차는 표본평균의 표준편차입니다.
    실제로 통계를 낼 때는 모집단을 대상으로 하기엔 비용이나 시간이 너무 많이 소모되므로 표본을 추출해서 하게 되는데, 그 과정에서 생기는 모평균에 대한 표본평균들의 오차를 나타낸 게 평균의 표준오차라고 이해했습니다. (SE (standard error of the mean) = sigma (sample standard deviation) / sqrt(N))
    이를 바탕으로 잔차의 표준오차 또한 잔차평균의 표준편차인 것이 아닌가 생각했는데 찾아보니 단순히 잔차의 표준편차를 잔차의 표준오차라고 하는 것 같더군요.
    평균의 표준오차 맥락과 동일했다면 RSE 관계식에서 표본의 수에 의한 효과가 있어야 하는데 없는 것 같아서요.
    분자의 sqrt(n - 2)는 자유도인 것 같고 그럼 RSE 관계식에서 우변이 의미하는 건 단순히 잔차의 표준편차라는 것이니까요.
    회귀 분석에서도 표본을 가지고 하므로 표본의 수에 따라 표본평균의 분포가 달라지는 것처럼 잔차평균의 분포도 달라질 텐데 추가로 sqrt(N)으로 나눠줘야 하는 것 아닌가요?
    머리에 있는 내용을 어떻게 글로 표현해야 할지 모르겠는데 제대로 전달이 되었는지 모르겠습니다.
    정리하자면, 1. RSE 관계식에서 표본의 수에 의한 효과는 없어도 되는 것인지, 2. 평균의 표준오차와 잔차의 표준오차 개념에서 표준오차라는 말이 동일한 뜻인지 궁금합니다.
    특히 찾아보면 대부분 표준오차 개념을 평균의 표준오차와 동일하게 설명하는데 더 포괄적인 의미가 있는지 알고 싶습니다.
    혹시 올려주신 영상들에 이미 설명이 되어 있다면 영상 링크만 달아주시면 감사하겠습니다.

    • @easy_statistics
      @easy_statistics  3 года назад +3

      열심히 봐주심에 감사드립니다.
      1. Y_i 와 Y-hat_i의 차이를 오차라고 하셨는데... => 예, Y_i 와 Y-hat_i의 차이는 잔차가 맞습니다. 그런데 그부분이 오차 때문에 생긴다고 표현하려고 오차라고 적은겁니다. (다시 잘들어보시면...) 아래는 회귀선 때문에 생기는 것이라 회귀선이라 적었고요. ㅎ 이걸 구분하시는 구독자가 있으신것에 감동.
      2. SSE가 sum of squared errors의 약자가 아니라 sum of squared estimate of errors인가요? = > SSE는 정확히는 잔차제곱합이죠. Residual Sum of Squared 그래서 어떤 책은 RSS라 적기도 합니다. 그럼 독자들이 조금 혼란스러울 것 같아 (SSReg와 혼동) 더 일반적인(투표는 안해봤습니다 ㅎ) 표현 SSE로 적었는데 원어는 SS due to errors입니다. 오차때문에 생기는 SS이죠. 같은 말입니다. 질문자가 다 알고 계신거같아요. ㅎ
      3. RSS (residual sum of squared) / (n - 2) =MSE의 제곱근이 잔차의 표준오차 => (n-2)로 나눠주는 이유는 E(MSE)= 시그마제곱(오차의 분산)이 되게 하려는 거죠. 불편추정량을 만들려고요. 표본분산 구할 때 n대신 (n-1)로 나눠주는 것과 같은 이치입니다.
      4. 표준오차와 표준편차는 좀 혼란스럽죠. ruclips.net/video/7nI5qyA8Jv4/видео.html 영상에서 3분경에 표준오차에 대한 언급이 있어요.
      어떤 모수를 추정하고자 만든 통계량의 표준편차(또는 그 추정값)를 모수의 표준오차라고 표현합니다. (통계학이 좀 그래요 ㅜㅜ 쓸데없이)
      예를 들어 표본평균은 평균을 추정하려는 값이죠. 표본평균의 표준편차는 모표준편차/루트n 이죠, 이값 또는 표본표준편차/루트n이 평균의 표준오차가 됩니다.
      잔차는 오차를 추정하는 값이죠. 잔차의 표준편차는 모표준편차(시그마)이죠. 이 값 또는 시그마의 추정값 MSE의 제곱근이 표준오차가 됩니다. (오차의 표준오차라 쓰면 사람들이 너무 혼란스러울까봐 잔차의 표준오차라 표현하는것을 양해해주시고 회귀분석에서는 회귀계수의 표준오차가 더 중요해요~)
      **기본적으로 표준오차는 통계량값을 표준화해줄때 나눠주는 분모의 값에 해당되는 것입니다. 그렇게 표준화하면 많은 경우 그 값이 t분포를 따르죠. (몇 가지 조건을 만족하면요 ㅎ)
      도움이 되셨길~~~

    • @choihojo
      @choihojo 3 года назад +1

      @@easy_statistics 상세한 설명 덕분에 대부분 이해가 되었습니다.
      그런데 마지막에 잔차의 표준편차는 모표준편차라고 하신 부분에 관해 궁금한 것이 있습니다.
      표본평균의 표준편차는 말씀하신 대로 모표준편차/루트n입니다.
      그런데 잔차의 표준편차에서는 왜 루트n으로 나눌 필요가 없이 바로 모표준편차와 같은지 알 수 있을까요?
      잔차의 '평균'의 표준편차가 아니라 그냥 잔차의 표준편차여서 그런 건가요?
      제 궁금증을 최대한 구체적으로 설명하기 위해서 예를 들겠습니다.
      논리에 이상이 있으면 지적 부탁드립니다.
      동일한 모집단에서 각각 50명씩 표본1, 표본2, ..., 표본100을 추출하였다고 가정하겠습니다.
      표본1의 평균1, 표본2의 평균2, ..., 표본100의 평균100 이렇게 100가지 표본평균이 존재합니다.
      이를 바탕으로 표본평균의 분포를 살펴보면 표본평균의 평균은 모평균과 같으나 표준편차는 모표준편차/루트n입니다.
      각 표본 추출에서 n이 50이므로 평균의 표준오차라고도 하는 표본평균의 표준편차는 n에 영향을 받아 루트n으로 나눠주는 게 납득이 됩니다. (수학적으로도 증명이 가능하겠지만 직관적으로 봤을 때도 합리적이어서 이렇게 표현했습니다. 50명씩 표본을 추출해서 평균을 계산하면 당연히 1명씩 따로 뽑을 때보다 극단적인 값을 관측할 가능성이 낮아지고 그만큼 평균에 많이 분포하게 된다는 뜻이니까요.)
      한편, 실제 상황에서 통계적 분석을 할 때는 표본 추출을 100번씩이나 하는 경우는 거의 없다고 알고 있습니다. (부트스트랩의 경우는 제외하겠습니다.)
      대부분 표본을 1번 추출하고 해당 표본 집단이 모집단을 대표할 수 있다는 가정 하에, 모평균과 모표준편차 대신 각각 표본평균과 표본표준편차를 쓰더군요.
      결국 정리하자면, 1. 표본평균 = 모평균, 2. 표본표준편차 = 모표준편차, 3. 표본평균의 평균 = 모평균, 4. 표본평균의 표준편차 = 모표준편차/루트n입니다.
      이제 관계를 알아보기 위한 회귀 분석에서 잔차의 경우에 대해 얘기하겠습니다.
      독립변수를 적절히 설정하고 동일한 모집단에서 각각 50명씩 표본1, 표본2, ..., 표본100을 추출하고 회귀 분석을 진행했습니다.
      표본1의 회귀식1과 잔차1 (여기서 잔차1은 표본1에서 잔차들의 평균이라 하겠습니다.), 표본2의 회귀식2와 잔차2, ..., 표본100의 회귀식100과 잔차100 이렇게 100가지 회귀식과 잔차평균이 존재합니다.
      잔차1, 잔차2, ..., 잔차100은 앞선 표본평균의 경우와 같이 분포를 이룰 것입니다.
      표본집단 잔차평균들의 평균은 모집단의 잔차평균과 일치하겠지만, 표본집단 잔차평균들의 표준편차는 모집단 잔차평균의 표준편차보다 작을 것으로 보입니다. (표본평균의 표준편차와 동일한 맥락으로 이해했습니다.)
      정리하자면, 1. 표본잔차평균 = 모잔차평균, 2. 표본잔차의 표준편차 = 모잔차의 표준편차, 3. 표본잔차평균의 평균 = 모잔차평균, 4. 표본잔차평균의 표준편차 = 모잔차평균/루트n 이렇게 되지 않을까 싶어서요. (잔차는 표본에서만 쓰는 용어이므로 모집단에서는 안 쓰는 게 맞을 것 같은데 여기서는 표현의 통일을 위해 모잔차를 모집단에서의 회귀선과 관측값의 차이로 했습니다.)
      윗부분이 너무 길다면 아래 정리한 질문만 읽어봐주시면 감사하겠습니다.
      1. 잔차의 표준편차가 모표준편차라고 하셨는데 여기서 말하는 모표준편차가 말 그대로 모집단에서 종속변수의 표준편차를 말하는 것인지, 아니면 모집단에서 참인 회귀선이 있다고 했을 때 그 회귀선을 중심으로 한 오차의 표준편차를 말하는 것인지 궁금합니다.
      2. 잔차의 표준편차라고 표현하실 때 단순히 추출한 하나의 표본 내에서의 잔차의 표준편차인지, 아니면 수많은 추출을 했을 때 각 표본의 잔차평균들의 표준편차를 말하는 것인지 궁금합니다.
      3. 만약 2번에서 잔차의 표준편차가 하나의 표본 내에서의 잔차의 표준편차를 말하는 것이라면 루트n으로 나눌 필요가 없다는 것은 이해할 수 있습니다. 그러나 만약 2번 답이 잔차평균들의 표준편차라면 루트n으로 왜 나눌 필요가 없는지 궁금합니다. (수식으로 말하자면 RSS (residual sum of squared) / (n - 2)의 제곱근이 잔차의 표준오차가 아니라, RSS (residual sum of squared) / (n - 2)의 제곱근에다 루트 n으로 나눈 값이 잔차의 표준오차가 아닌가 싶어서요.)
      제가 생각해도 제 질문이 좀 이상해서 질문 자체를 이해 못하실 수도 있을 것 같습니다.
      만약 그럴 경우 답변을 달지 않고 신경쓰지 않으셔도 괜찮습니다.

    • @easy_statistics
      @easy_statistics  3 года назад +2

      @@choihojo 많은 부분을 잘 이해하고 계십니다.
      1. 잔차의 표준편차가 모표준편차라고 하셨는데 여기서 말하는 모표준편차가 말 그대로 모집단에서 종속변수의 표준편차를 말하는 것인지, 아니면 모집단에서 참인 회귀선이 있다고 했을 때 그 회귀선을 중심으로 한 오차의 표준편차를 말하는 것인지 궁금합니다.
      => Var(Y) = Var(α+βX+ε) =Var(ε)=σ^2 즉 같은 말입니다. 모형에서 오차항만 확률변수이니까요.
      2. 잔차의 표준편차라고 표현하실 때 단순히 추출한 하나의 표본 내에서의 잔차의 표준편차인지, 아니면 수많은 추출을 했을 때 각 표본의 잔차평균들의 표준편차를 말하는 것인지 궁금합니다.
      => 잔차평균 e ̅ 는 구해봤자 0이기 때문에 안 구합니다.ㅎㅎ Sd(ε)=σ 를 의미합니다.
      3. 만약 2번에서 잔차의 표준편차가 하나의 표본 내에서의 잔차의 표준편차를 말하는 것이라면 루트n으로 나눌 필요가 없다는 것은 이해할 수 있습니다. 그러나 만약 2번 답이 잔차평균들의 표준편차라면 루트n으로 왜 나눌 필요가 없는지 궁금합니다. (수식으로 말하자면 RSS (residual sum of squared) / (n - 2)의 제곱근이 잔차의 표준오차가 아니라, RSS (residual sum of squared) / (n - 2)의 제곱근에다 루트 n으로 나눈 값이 잔차의 표준오차가 아닌가 싶어서요.)
      => 잔차의 표준오차라는 표현이 질문자를 혼란스럽게 하고 있습니다. 실은 우리는 σ의 추정값을 구하고 싶은거에요. 회귀계수β를 추정하고 이 값이 0인가를 검정하기 위해서는 분모에 들어갈 β햇의 표준오차를 구해야하는데 이 값이 {σ/√X의 편차제곱합}입니다. σ를 모르니 추정값을 사용하겠죠, 이게 (residual sum of squared) / (n - 2) = (a.k.a. MSE)의 제곱근입니다. 분산을 추정하려면 (잔차-잔차평균(=0))^2 들을 구해서 주욱 더해주고(잔차제곱합) 이걸 n으로 나눠주면 되겠죠. 그런데 n으로 나눠주면 정확한 추정이 안되어서 (n-2)로 나눠줍니다. 그게 MSE인거에요. 잔차의 표준오차는 우리의 관심밖입니다.

    • @choihojo
      @choihojo 3 года назад +2

      @@easy_statistics 제 질문 수준이 많이 부족함에도 불구하고 설명이 정말 명쾌하시네요.
      헷갈리던 부분들을 모두 이해했고 머리도 맑아진 기분입니다.
      훌륭한 강의와 친절한 설명 진심으로 감사드립니다.

  • @easy_statistics
    @easy_statistics  3 года назад +1

    우리가 회귀분석을 할 때 단순회귀를 하는 경우는 거의 없죠. 대부분 독립변수의 수가 복수이기 때문에 다중회귀를 합니다. 그러나 결정계수, 오차, 잔차, 분산분석표의 개념을 익히는데 단순회귀를 공부하는 것이 도움이 될 것입니다.