여기서 다루는 비선형회귀는 비선형 형태를 가진 변수를 변환하고 이를 선형회귀분석으로 분석하는 방법입니다. 그중에서 가장 많이 하는 변수변환이 로그변환인데 왜 로그변환이 많이 사용되고 그 효과가 좋은지를 설명하고 있습니다. 결과는 어메이징합니다. 그간 고등학교 때 지수로그 열심히 배웠는데 이제서야 그 보람을 느낄 수 있을겁니다.
우리가 전체범위를 보고 분포를 바라보면 마치 왼쪽으로 치우친것처럼 보일겁니다. 하지만 원래 정상적인 범위안에 있어야 하는데 큰 값들이 계속 우측에 발생한것으로 보면 이는 오른쪽으로 치우친 분포이죠. 사람들이 착각하기 쉬운데 넘쳐나는 인터넷의 오류가 자꾸 이를 왼쪽으로 치우쳤다고 가르치는 바람에 전공자들이 힘드네요. ㅎ ruclips.net/video/0k4aqwYqmb4/видео.html 여길 보시면 설명이 되어있습니다.
천천히 설명해주셔서 정말 감사합니다. 이해에 많은 도움이 됐습니다. 그런데 혹시 산점도가 6:59 에 나오는 히스토그램처럼 왼쪽으로 치우쳐있다면, 어떤 형식의 변환을 하는 것이 적절한가요? 또, 여러 변환을 적용한 후에 adjusted Rsquared를 비교해서 어떤 변환을 사용할지를 결정하는 게 맞는 방법인가요? 그래프만 보고는 어떤 기준으로 변환방법을 정할지 모르겠습니다... 예를 들어 logY~logX, logY~X, Y~X 중에 비교한다면, Y와 logY의 종속변수가 달라서 adjusted Rsquared로 결정할 수 없다고 어디서 봤는데, ... 어떻게 해야하는지 모르겠습니다...
그러한 산점도는 오른 쪽으로 치우친 분포형태이고 로그변환하는게 맞습니다. 우리가 회귀선을 적합할 때 가장 높은 결정계수가 목표가 될 수는 없습니다. 직관적인 의미도 있어야 하고 해석이 가능한지도 고려해야지요. 보통 Y ~ logX가 가장 흔한 경우이죠. 왜냐면 Y ~ logX1, X2, X3 등과 같이 다른 변수는 변환 없이 포함시켜야 하는 경우가 많으니까요. 그리고 Y가 예제에서처럼 극단적으로 치우치는 경우에는 매출액을 Y로 하지 않고 매출액/자산 등과 같이 표준화한 변수를 Y로 사용하는게 일반적입니다. 홍은지님이 논문을 쓰는 대학원생이라면 좋겠어요. 제답변이 투머치가 아니길...ㅎ
아래에 주로 몰려있는데 윗쪽으로도 dispersed된 산점도의 경우엔 어떤 변환을 해야할까요? 아무리 검색해봐도 잘 모르겠습니다.. ln, log10한 후에 histogram을 그려보면 다 비슷하게 안 normal해보입니다. residual plot을 그려봐도 flat하지도 않고 분산이 even하지도 않습니다. 과제의 목적이 가격탄력성을 구하는 것인데, 그럼 그냥 편하게 log-log로 해도 되는 걸까요? 별다른 justification은 필요없이요?... 멘붕입니다. 제가 너무 꼬아서 생각하나 싶기도 합니다.
안녕하세요 질문이 있어 댓글 남깁니다. 1. 독립변수에 로그를 취해 분석한 데이터는 선형 회귀분석을 했다고 말할 수 있나요? (로그 회귀분석을 했다고 말할수 있나요?) 2. 독립변수 log 변수변환-> 선형분석 으로 진행하게 되면 회귀식으로 특정 종속변수에 해당하는 독립변수를 계산할때 마지막에 역로그를 해주어야 하는데, 한번에 모형 비교에서와 같은 로그 값이 들어간 회귀식을 얻을 수 있는 방법이 있을까요..?
@@easy_statistics제가 reactive potency 50%, 90% 값(RC 50, RC90 ) 등을 구하고 싶을 때 Y값에 50이나 90을 넣고 x값을 역으로 구하기 때문 입니당... (X값이 보통 약물 농도인데, 농도가 지수적으로 증가하는 경우가 많아서 선형 회귀를 하기 전에 농도에 상용로그를 씌웁니다.) 이렇게 되면 종속변수로 독립변수를 예측하는 것이 되는데, 혹시 이렇게 하면 안되는 것일까요...? mortaliy 같은 경우에는 probit 분석으로 LD50 값 등을 구하면 되는데, 종속변수가 이변량(Bivariate)이 아닌 경우에는 probit을 쓸 수가 없어서 이렇게 하고 있습니다..
@@BFSeep 자세한 내용을 알 수 없어 답하긴 어렵지만 probit을 사용하는 수준이면 스스로 해결가능할 거 같아요. ㅎ 독립변수가 하나라면 종속변수로 예측하는 것도 가능할 거 같지만 추정의 정확성, 표준오차 등을 표시하기 어려워서 학술적으로는 퍼블리시가 힘들지 않을까 싶은데 ... 지도교수님께 여쭤보는게 안전하고... 그쪽 분야에서 이런 연구가 처음은 아닐테니 유사연구를 찾아보세요~
여기서 다루는 비선형회귀는 비선형 형태를 가진 변수를 변환하고 이를 선형회귀분석으로 분석하는 방법입니다. 그중에서 가장 많이 하는 변수변환이 로그변환인데 왜 로그변환이 많이 사용되고 그 효과가 좋은지를 설명하고 있습니다. 결과는 어메이징합니다. 그간 고등학교 때 지수로그 열심히 배웠는데 이제서야 그 보람을 느낄 수 있을겁니다.
감사합니다 많은 도움이 되었습니다.
7:08 에서 보면 히스토그램이 왼쪽으로 치우친 것 같은데 위에 글을 보면 right skewed라고 써져있는데, 우측으로 범위가 열려있다는 게 어떤 말인가요? 오른쪽으로 갈수록 큰 값의 outlier가 있다는 걸 말하는 건가요?
우리가 전체범위를 보고 분포를 바라보면 마치 왼쪽으로 치우친것처럼 보일겁니다. 하지만 원래 정상적인 범위안에 있어야 하는데 큰 값들이 계속 우측에 발생한것으로 보면 이는 오른쪽으로 치우친 분포이죠. 사람들이 착각하기 쉬운데 넘쳐나는 인터넷의 오류가 자꾸 이를 왼쪽으로 치우쳤다고 가르치는 바람에 전공자들이 힘드네요. ㅎ
ruclips.net/video/0k4aqwYqmb4/видео.html
여길 보시면 설명이 되어있습니다.
@@easy_statistics 아! 그렇네요! 학부때 배웠고 완전히 이해했다고 생각했는데 한참 안보니 까먹어버렸습니다;;
@@easy_statistics 그럼 right-skewed = 우측으로 범위가 열렸다 로 이해하면 될까요?
천천히 설명해주셔서 정말 감사합니다. 이해에 많은 도움이 됐습니다. 그런데 혹시 산점도가 6:59 에 나오는 히스토그램처럼 왼쪽으로 치우쳐있다면, 어떤 형식의 변환을 하는 것이 적절한가요?
또, 여러 변환을 적용한 후에 adjusted Rsquared를 비교해서 어떤 변환을 사용할지를 결정하는 게 맞는 방법인가요? 그래프만 보고는 어떤 기준으로 변환방법을 정할지 모르겠습니다... 예를 들어 logY~logX, logY~X, Y~X 중에 비교한다면, Y와 logY의 종속변수가 달라서 adjusted Rsquared로 결정할 수 없다고 어디서 봤는데, ... 어떻게 해야하는지 모르겠습니다...
그러한 산점도는 오른 쪽으로 치우친 분포형태이고 로그변환하는게 맞습니다.
우리가 회귀선을 적합할 때 가장 높은 결정계수가 목표가 될 수는 없습니다. 직관적인 의미도 있어야 하고 해석이 가능한지도 고려해야지요. 보통 Y ~ logX가 가장 흔한 경우이죠. 왜냐면 Y ~ logX1, X2, X3 등과 같이 다른 변수는 변환 없이 포함시켜야 하는 경우가 많으니까요. 그리고 Y가 예제에서처럼 극단적으로 치우치는 경우에는 매출액을 Y로 하지 않고 매출액/자산 등과 같이 표준화한 변수를 Y로 사용하는게 일반적입니다.
홍은지님이 논문을 쓰는 대학원생이라면 좋겠어요. 제답변이 투머치가 아니길...ㅎ
@@easy_statistics 대학원생 맞습니다! 앞으로도 잘 부탁드립니다^^ 답변 감사합니다!
아래에 주로 몰려있는데 윗쪽으로도 dispersed된 산점도의 경우엔 어떤 변환을 해야할까요? 아무리 검색해봐도 잘 모르겠습니다.. ln, log10한 후에 histogram을 그려보면 다 비슷하게 안 normal해보입니다. residual plot을 그려봐도 flat하지도 않고 분산이 even하지도 않습니다.
과제의 목적이 가격탄력성을 구하는 것인데, 그럼 그냥 편하게 log-log로 해도 되는 걸까요? 별다른 justification은 필요없이요?... 멘붕입니다. 제가 너무 꼬아서 생각하나 싶기도 합니다.
@@duarawon3757 음... 과제이군요. ㅎ 제가 경제학에서는 어떻게 응용되어 사용하는지 잘 몰라서... 이코노메트릭 분야인 듯. 통계에서는 로그변환, 스퀘어루트 변환, 역수변환 등만 사용합니다. 그러니 다양하게 해보시길... logY~logX 가 안되던가요...
감사합니다. 임상논문을 읽다가 비선형회귀분석 개념이 어려웠는데 왜 항생제의 효과를 볼때 균 수를 비선형 회귀모델을 써서 약효를 검증하는지 조금은 알것 같습니다. 독립변수와 종속변수가 정비례하지않고 지수함수적으로 변화할 때 유용한 모델인것 같네요
안녕하세요 질문이 있어 댓글 남깁니다.
1. 독립변수에 로그를 취해 분석한 데이터는 선형 회귀분석을 했다고 말할 수 있나요? (로그 회귀분석을 했다고 말할수 있나요?)
2. 독립변수 log 변수변환-> 선형분석 으로 진행하게 되면 회귀식으로 특정 종속변수에 해당하는 독립변수를 계산할때 마지막에 역로그를 해주어야 하는데, 한번에 모형 비교에서와 같은 로그 값이 들어간 회귀식을 얻을 수 있는 방법이 있을까요..?
선형회귀분석으로 간주합니다. 역로그를 취하는 경우는 별로 없습니다. 예측을 원하면 X값 그대로 입력하면 계수 * log(X) 계산되니까요. 간단하게 생각하세요~~
@@easy_statistics 답변 감사드립니다.
역 로그를 여쭤본 이유는 선형분석으로 알아낸 회귀식을 X에 대한 식으로 바꿔서 ex) y= 계수 * log(X)를 x = 10^(y/계수)로... 하는 경우에 역 로그를 하는 경우가 있기 때문이었습니다.
@@easy_statistics제가 reactive potency 50%, 90% 값(RC 50, RC90 ) 등을 구하고 싶을 때 Y값에 50이나 90을 넣고 x값을 역으로 구하기 때문 입니당... (X값이 보통 약물 농도인데, 농도가 지수적으로 증가하는 경우가 많아서 선형 회귀를 하기 전에 농도에 상용로그를 씌웁니다.) 이렇게 되면 종속변수로 독립변수를 예측하는 것이 되는데, 혹시 이렇게 하면 안되는 것일까요...? mortaliy 같은 경우에는 probit 분석으로 LD50 값 등을 구하면 되는데, 종속변수가 이변량(Bivariate)이 아닌 경우에는 probit을 쓸 수가 없어서 이렇게 하고 있습니다..
@@BFSeep 자세한 내용을 알 수 없어 답하긴 어렵지만 probit을 사용하는 수준이면 스스로 해결가능할 거 같아요. ㅎ 독립변수가 하나라면 종속변수로 예측하는 것도 가능할 거 같지만 추정의 정확성, 표준오차 등을 표시하기 어려워서 학술적으로는 퍼블리시가 힘들지 않을까 싶은데 ... 지도교수님께 여쭤보는게 안전하고... 그쪽 분야에서 이런 연구가 처음은 아닐테니 유사연구를 찾아보세요~
영상 감사히 잘 봤습니다! 실습을 좀 해보려고 하는데 혹시 예시로 사용했던 데이터를 받아 볼 수 있을까요??
SPSS 자료는 제 홈피 곳곳에(?) 업로드 되어있습니다. 기업매출액 자료만 일단 링크 올립니다~
@@easy_statistics 빠른 답변과 자료에 진심으로 감사드리옵니다..!ㅠ.ㅠ 늘 행복하셔야해요!ㅎㅎ
설명 감사합니다! 그런데 변수에 자연로그를 씌웠을 때 마이너스가 되는 경우에도 선형회귀분석이 가능할까요? 독립변수(이윤)가 0.01이라 로그 변환을 했을 때 음수가 나와서요.
상관없습니다. 독립변수축이 음수라도 기울기에는 아무런 영향이 없죠,