선생님, 강의 잘 들었습니다! 신뢰수준을 0.05로 잡으면, t 분포가 95%의 신뢰구간을 가지고 있다는 것인데 t 분포가 어떻게 보면 서로 다른 두 개 표본 세트의 평균의 차이에 관한 분포잖아요? 그러면 95%의 신뢰구간을 가지고 있다는 것은 t 값을 100번 뽑으면, t 분포를 이용한 95% 신뢰구간에 95번은 모평균의 차이값이 포함되어 있다는 것이 맞는 건가요?
맞습니다. 어느 정도 잘 이해하고 계신 것 같습니다. 관련한 설명은 아래의 웹페이지에도 잘 정리되어 있으니 확인해 주십시오. angeloyeo.github.io/2021/01/05/confidence_interval.html#t-test%EC%97%90%EC%84%9C-%EC%8B%A0%EB%A2%B0%EA%B5%AC%EA%B0%84-%EC%84%A4%EC%A0%95
@@AngeloYeo 어우 감사합니다. 그저께부터 통계를 이해하려고 고군분투하고 있는데, 선생님 강의가 도움이 많이 됩니다.. ㅠㅠ 제가 수포자였기 때문에 가끔 수준 떨어지는 질문을 하더라도 너그럽게 이해 부탁드리겠습니다..... 그러면 이런 이치가 anova 이후 사후검정한 값에도 적용이 되는 건가요? (예를들어 컨트롤 그룹과 감기약 50밀리그램 그룹, 그리고 감기약 100 밀리그램 그룹이 있다고 하고 감기약 50 밀리그램 그룹과 감기약 100밀리그램 그룹에서 유의미한 차이가 날 경우)
1. 다른 모집단이라는 말씀을 처치 전과 처치 후가 다른 집단이라고 이해하는 것이 맞나요? 2. (처치전/처치후), (20년 근육량/24년 근육량), (23년까지 꾸준하게 콩을 먹은사람의 모질/그렇지않은사람의모질) 예시를 생각나는대로 만들어 봤는데 앞 2개처럼 이것들도 다른 집단으로 설정할 수 있는 것이 맞을까요..?
기술면접 준비하는데 정말 많은 도움 받고있습니다 공돌이님! 그런데 제가 수학을 못해서.. '두 그룹간 평균 차이에 대한 불확실도로 나누어준다' 는 부분 중 나누어주는 부분이 이해가 안갑니다! 표준오차로 나누어주는게 t-value 값에 어떤 영향을 주고 어떻게 해석해볼 수 있을까요?? 강의 해주신대로 t-value = 차이 * 확실도 라고 표현해볼 수 있고, t-value는 차이를 나타내는 동시에 이 값이 얼마나 확실한지를 하나의 지표로 나타내는 것입니다.. 그런데 왜 두가지 지표를 하나의 값으로 표현하는지 이해가 안갑니다..! 가령, 피어슨 상관계수는 변수간에 상관관계를 나타내고 p-value의 역할은 이것이 얼마나 통계적으로 유의미한지 보는 식으로 각각의 역할이 있는데.. 이 두값을 나눠버리지는 않죠! 어떤 의미인지 파악하는 것이 힘들테니까요. t-value의 경우는 표본 평균 차이 / 불확실도로 나타내어 어떤 insight가 나오는지.. 이해가 잘 안가네요!
굳이 나누어서 두 개의 의미를 희석해버리면 종합적인 결과물을 얻을 수 있습니다. 본래의 의미는 희석되지만요. 숫자 하나만 가지고 t-test를 수행하는 목적을 달성할 수 있다면 숫자 하나만 사용하는게 분석하는 사람 입장에서는 훨씬 편하지 않을까요? 그런 의미라고 생각하면 좋을 것 같습니다.
좋은강의 정망정말 감사합니다. 제가 인터뷰문제를 준비하고 있는데요 실례가안된다면 피드백을 얻고싶습니다. 한국전체 인구의 평균키를 위해 삼성전자의 평균키를 측정한 estimate은 bias인가요? bias이면 어떻게 증명할수 있나요? 저는 이문제에 대한 답으로, 샘플이 모집단을 완벽히 대표하지 않기때문에 편향이라고 생각하고요, 증명방법으로는 one sample z-test or t-test를 이용하면 되나요? 그런데 문제에서 모집단의 평균을 모를때는 어떻게 증명하겠냐고도 물어보는데요, 이 경우에는 어떻게 답변해야 하는지 여쭤봐도 될까요? 감사합니다!
예전 실험실에서 가장 많이 쓰던 confidence level 테스트.... 다시하기 싫어서 0.05만....0.05만... 하고 빌었던 기억이 나네요 ㅋㅋㅋㅋ 지금껏 t test의 의미는 위스키 공장? 맥주공장? 에서 재료의 비율을 섞을때 썼다고만 알고 있었는데ㅋㅋ 마인드맵으로 road map 을 짜주시니깐 한눈에 알아보기 너무 좋습니다! 추후에 anova test의 의미도 한번 다뤄주실수 있을까요?
외계인 150명 사례로 확실히 t분포 곡선의 모양을 이해했습니다, 하나 궁금한 것이 마지막에 나오는 금성의 사는 외계인 키 150명의 분포가 정규분포 형태로 보이는데 t-test의 모집단이 정규분포가 아니어도 t분포 곡선은 정규분포를 근사하는게 맞나요 실제 상황에서 어떤 두 그룹의 평균의 차이를 구할때 이 두그룹을 모두 포함하는 모집단의 분포는 알기 어려울 것 겉아서요!
1. 모집단의 형태는 우리가 알 수 없습니다. 여기서 형태를 모른다라는 말은 모평균, 모분산 등의 모수를 모른다는 말로 바꿔 쓸 수 있는 말입니다. 2. 만약, 분명한 투약 효과가 있다면, 약을 투약 받는 사람들의 전체 분포는 약을 투약 받지 않는 사람들의 전체 분포와 판이하게 다르겠죠? 만약 투약 효과가 없다면 두 집단의 분포는 사실 변동이 없어야 합니다. 원래 투약 전 집단 분포에 그대로 속해있게 될테니까요. 분당 평균 심박이 150회가 되어버리는 질병이 있는데, 어떤 약을 투약하면 평균 심박이 100회까지 떨어진다고 해봅시다. 그 말은 투약하지 않는 사람들 집단 분포의 평균은 150 이고 약을 투약 받는 사람들 집단 분포의 평균은 100이라는 말입니다. 3. t 값이 충분히 크게 나왔다는 것은 투약 전후의 집단들이 완전히 분리된 모집단에서 나왔을 가능성이 더 높다는 것입니다. t 값이 우연히 한 분포의 양 끝에서 나왔을 수도 있지만 그런 가능성은 희박하므로 우리는 두 집단이 완전히 분리되어 있고 처치 전후의 표본들이 그 분리된 집단에서 나왔다고 판단하는 것입니다.
??? 공돌이 용달 부계정인가요? Veritasium 이라는 채널에서 6년전 업로드한 'Can Silence Actually Drive You Crazy?" 라는 영상 한글자막 작성자를 보니까 이 채널이던데요 3개월 전에 공돌이 용달님께서 업로드하신 비슷한 영상이 있어서요 (그리고 그 영어 영상 중간부터 자막 번역이 좀 이상하던데...?)
제가 이해한걸 풀어보면 _____________________ 1. "키가 크는 신약을 개발했다." 2. "신약을 먹으면 실제로 키가 크는지 검증하기 위해 다음과 같은 실험을 구성했다" 3. "n1명의 지원자를 모아 키크는 신약 약을 주고 ,n2명의 지원자를 모아 플라시보약을 준다. 그리고 6개월 후 신약을 먹은 사람들의 키가 큰 평균값 a과 플라시보약을 먹은 사람들의 키가 큰 평균 값 b을 계산하여 a-b>0 이면 신약은 약효가 있는것이다" 4. 이 때 a-b는 통계적 가설의 진위여부를 검정할 수 있도록 표본으로부터 계산한 통계량이기 때문에 검정 통계량은 맞으나 다음과 같은 문제점이 있다. 5. "문제 제기: n1명의 지원자에게도 플라시보약(혹은 약효가 전혀 없는 신약)을 주고, n2명의 지원자에게도 플라시보약을 줘도 a-b>0 일 수 있지않느냐?" 6. 즉, 표본 그룹의 평균값들은 오차를 수반한다는 사실을 고려하지 못한것이다. 7. "문제 제기가 합당하므로 a-b를 대체할만한 검정 통계량이 필요했다." 8. 이 때 사용하는 검정 통계량 t-value 즉 "차이(a-b)/불확실성" 이다. 9. "t-value를 사용하면 a-b가 아무리커도 불확실성이 높으면 작은 값이되기 때문에 a-b를 검정 통계량으로 쓰는 것 보다는 합리적이다" 10. t-value에서 분모인 불확실도를 계산할 때 √(var[x'1-x'2]) = √(var[Y]), 이 때 Y=x'1-x'2(=a-b) 이므로 이를 다시표현하면 "표본 통계량 Y의 표준 편차" = "두 집단의 약효평균의 차이의 표준 편차" = "Y의 표본 오차" 이다. 11. 불확실도("Y의 표본 오차")를 공식이 아닌 무식하게 샘플링하여 계산한다면 두 집단의 약효평균의 차이(Yi)를 10,000번 계산(각 집단도 10,000번 뽑힘) 한 후 이때 나온 Yi(=ai-bi) 10,000개로 평균을 계산하고 표준 편차를 계산하면된다. 하지만 이것은 엄청난 비용이 든다. 12. 불확실도("Y의 표본 오차")를 공식으로 풀면 "신약을 먹은 n1명의 표본 집단의 키가 큰 값에 대한 표준 편차" = s1 과 "플라시보약을 먹은 n2명의 표본 집단의 키가 큰 값에 대한 표준 편차" = s2만 추가로 계산해도 불확실도를 계산할 수 있다. 따라서 11 방법에 비해 엄청난 비용을 절약할 수 있다. ----------------------------------- 잘 이해한게 맞나요? 혹시 틀린 번호가 있다면 몇 번인가요?
화학과목에서 대충 넘어가버려서 이해 못한거를 여기서 때웁니다..... 진짜 이해가 너무 잘돼요 감사합니다!!!
도움 되었다니 다행입니다 :)
선생님, 강의 잘 들었습니다! 신뢰수준을 0.05로 잡으면, t 분포가 95%의 신뢰구간을 가지고 있다는 것인데
t 분포가 어떻게 보면 서로 다른 두 개 표본 세트의 평균의 차이에 관한 분포잖아요?
그러면 95%의 신뢰구간을 가지고 있다는 것은 t 값을 100번 뽑으면, t 분포를 이용한 95% 신뢰구간에 95번은 모평균의 차이값이 포함되어 있다는 것이 맞는 건가요?
맞습니다. 어느 정도 잘 이해하고 계신 것 같습니다. 관련한 설명은 아래의 웹페이지에도 잘 정리되어 있으니 확인해 주십시오.
angeloyeo.github.io/2021/01/05/confidence_interval.html#t-test%EC%97%90%EC%84%9C-%EC%8B%A0%EB%A2%B0%EA%B5%AC%EA%B0%84-%EC%84%A4%EC%A0%95
@@AngeloYeo 어우 감사합니다. 그저께부터 통계를 이해하려고 고군분투하고 있는데, 선생님 강의가 도움이 많이 됩니다.. ㅠㅠ
제가 수포자였기 때문에 가끔 수준 떨어지는 질문을 하더라도 너그럽게 이해 부탁드리겠습니다.....
그러면 이런 이치가 anova 이후 사후검정한 값에도 적용이 되는 건가요?
(예를들어 컨트롤 그룹과 감기약 50밀리그램 그룹, 그리고 감기약 100 밀리그램 그룹이 있다고 하고 감기약 50 밀리그램 그룹과 감기약 100밀리그램 그룹에서 유의미한 차이가 날 경우)
항상 잘보고 있어요!!! 감사합니다 ㅎㅎ
정말 너무 좋습니다 ㅠㅠ 모집단을 상정을 하고 설명하니깐 너무 잘 이해되네요 ㅠㅠ
1. 다른 모집단이라는 말씀을 처치 전과 처치 후가 다른 집단이라고 이해하는 것이 맞나요?
2. (처치전/처치후), (20년 근육량/24년 근육량), (23년까지 꾸준하게 콩을 먹은사람의 모질/그렇지않은사람의모질) 예시를 생각나는대로 만들어 봤는데 앞 2개처럼 이것들도 다른 집단으로 설정할 수 있는 것이 맞을까요..?
기술면접 준비하는데 정말 많은 도움 받고있습니다 공돌이님!
그런데 제가 수학을 못해서..
'두 그룹간 평균 차이에 대한 불확실도로 나누어준다' 는 부분 중 나누어주는 부분이 이해가 안갑니다! 표준오차로 나누어주는게 t-value 값에 어떤 영향을 주고 어떻게 해석해볼 수 있을까요??
강의 해주신대로 t-value = 차이 * 확실도 라고 표현해볼 수 있고, t-value는 차이를 나타내는 동시에 이 값이 얼마나 확실한지를 하나의 지표로 나타내는 것입니다..
그런데 왜 두가지 지표를 하나의 값으로 표현하는지 이해가 안갑니다..!
가령, 피어슨 상관계수는 변수간에 상관관계를 나타내고 p-value의 역할은 이것이 얼마나 통계적으로 유의미한지 보는 식으로 각각의 역할이 있는데.. 이 두값을 나눠버리지는 않죠! 어떤 의미인지 파악하는 것이 힘들테니까요.
t-value의 경우는 표본 평균 차이 / 불확실도로 나타내어 어떤 insight가 나오는지.. 이해가 잘 안가네요!
굳이 나누어서 두 개의 의미를 희석해버리면 종합적인 결과물을 얻을 수 있습니다. 본래의 의미는 희석되지만요. 숫자 하나만 가지고 t-test를 수행하는 목적을 달성할 수 있다면 숫자 하나만 사용하는게 분석하는 사람 입장에서는 훨씬 편하지 않을까요? 그런 의미라고 생각하면 좋을 것 같습니다.
@@AngeloYeo 헉...빠른 답변 감사드립니다........
좋은강의 정망정말 감사합니다. 제가 인터뷰문제를 준비하고 있는데요 실례가안된다면 피드백을 얻고싶습니다. 한국전체 인구의 평균키를 위해 삼성전자의 평균키를 측정한 estimate은 bias인가요? bias이면 어떻게 증명할수 있나요? 저는 이문제에 대한 답으로, 샘플이 모집단을 완벽히 대표하지 않기때문에 편향이라고 생각하고요, 증명방법으로는 one sample z-test or t-test를 이용하면 되나요? 그런데 문제에서 모집단의 평균을 모를때는 어떻게 증명하겠냐고도 물어보는데요, 이 경우에는 어떻게 답변해야 하는지 여쭤봐도 될까요? 감사합니다!
예전 실험실에서 가장 많이 쓰던 confidence level 테스트.... 다시하기 싫어서 0.05만....0.05만... 하고 빌었던 기억이 나네요 ㅋㅋㅋㅋ
지금껏 t test의 의미는 위스키 공장? 맥주공장? 에서 재료의 비율을 섞을때 썼다고만 알고 있었는데ㅋㅋ
마인드맵으로 road map 을 짜주시니깐 한눈에 알아보기 너무 좋습니다!
추후에 anova test의 의미도 한번 다뤄주실수 있을까요?
EnderCreeper님 항상 댓글 감사드립니다 ㅎ 아노바도 F의 의미와 함께 준비중입니다 ~ ㅎㅎ
기준치 t 와 p-value는 같은것인가요?
구독과 좋아요를 두번 못 누르는게 아쉽네요.
그리고 혹시 t값 표에서 찾을 때 자유도는 오떻게 구하는 걸까요……? 명시된 바가 없어 조금 헷깔리네요….
최곱니다~
감사합니다 (최고)
외계인 150명 사례로 확실히 t분포 곡선의 모양을 이해했습니다,
하나 궁금한 것이 마지막에 나오는 금성의 사는 외계인 키 150명의 분포가 정규분포 형태로 보이는데
t-test의 모집단이 정규분포가 아니어도 t분포 곡선은 정규분포를 근사하는게 맞나요
실제 상황에서 어떤 두 그룹의 평균의 차이를 구할때 이 두그룹을 모두 포함하는 모집단의 분포는 알기 어려울 것 겉아서요!
t-test 는 parametric test입니다. 말하자면 모집단의 분포가 정규분포임을 가정하는 테스트 라는 의미입니다. 더불어 t 분포를 유도할 때도 모집단은 정규분포임을 가정하고 시작합니다.
계산한 t값> t기준 인 상황이 차이가 나는거고 이게 표준편차의 다름이 큰 이분산 가정이다 라고 볼수 있는거 맞나요…? 너무나 좋은 정보 감사합니다ㅠㅠ!
대학 미분적분학 영상으로 도움을 많이 받았던 구독자입니다.
이번 영상하고는 관계없는 이야기이지만 궁금한 문제가 있어서
질문가능할까요??
늦게봤네요... ㅠㅠ 여쭙고자 하시는게 뭔가요?
@@AngeloYeo 아 해결됐습니다~~ 감사합니다!!
@@윤정석-y5u 에구 ㅜㅜ 늦게 봐서 죄송합니다 그래도 해결되서 다행이네요~ ㅎㅎ
T검증도 검정통계량인가요?
네 t-value가 검정통계량입니다.
t_value의 기준을 정할 때는 플라시보 약을 먹인 집단으로 구하나요? 아 t_value도 상황에 따라 달라지기보단 일정한 분포를 따르는 건가요?
두 가지 질문을 하신건지... 사실 어떤걸 여쭤보시는지 잘 모르겠습니다. 좀 더 구체적으로 다시 질문을 정리해주시면 좋을 것 같습니다.
11분10초에 약이 효과가 있어서 두 표본집단이 다른 모집단으로 나왔을 경우에 충분히 큰 t 값이 나온다고 설명해주셨는데 다른 모집단으로 나왔다는게 무슨 말인지 모르겠네용ㅠㅠ
1. 모집단의 형태는 우리가 알 수 없습니다. 여기서 형태를 모른다라는 말은 모평균, 모분산 등의 모수를 모른다는 말로 바꿔 쓸 수 있는 말입니다.
2. 만약, 분명한 투약 효과가 있다면, 약을 투약 받는 사람들의 전체 분포는 약을 투약 받지 않는 사람들의 전체 분포와 판이하게 다르겠죠?
만약 투약 효과가 없다면 두 집단의 분포는 사실 변동이 없어야 합니다. 원래 투약 전 집단 분포에 그대로 속해있게 될테니까요.
분당 평균 심박이 150회가 되어버리는 질병이 있는데, 어떤 약을 투약하면 평균 심박이 100회까지 떨어진다고 해봅시다. 그 말은 투약하지 않는 사람들 집단 분포의 평균은 150 이고 약을 투약 받는 사람들 집단 분포의 평균은 100이라는 말입니다.
3. t 값이 충분히 크게 나왔다는 것은 투약 전후의 집단들이 완전히 분리된 모집단에서 나왔을 가능성이 더 높다는 것입니다. t 값이 우연히 한 분포의 양 끝에서 나왔을 수도 있지만 그런 가능성은 희박하므로 우리는 두 집단이 완전히 분리되어 있고 처치 전후의 표본들이 그 분리된 집단에서 나왔다고 판단하는 것입니다.
글로 정리된 곳
angeloyeo.github.io/2020/02/13/Students_t_test.html
와... 이게뭐야 뭔말인지모르겠어...(문과생)
??? 공돌이 용달 부계정인가요?
Veritasium 이라는 채널에서 6년전 업로드한
'Can Silence Actually Drive You Crazy?"
라는 영상 한글자막 작성자를 보니까 이 채널이던데요
3개월 전에 공돌이 용달님께서 업로드하신 비슷한 영상이 있어서요
(그리고 그 영어 영상 중간부터 자막 번역이 좀 이상하던데...?)
안녕하세요. 용달님 과는 관계 없는 채널입니다 ㅎㅎ 오...; 그 영상 번역하다가 중간에 관뒀던 건데 ... 어떻게 그걸 ㅋㅋㅋ... 보셨네요
도움이 많이 됐습니다. 감사합니다 :)
도움되었다니까 기분 좋네요 😊😊
t-value가 t-test랑 같은 말인가요?
t-test는 통계 기법 이름이고 t-value는 t-test를 수행할 때 계산하는 값(통계량)입니다.
U r goat
나의 이해력 무엇?? ㅠㅠ 이해 못했습니다.,,, ㅜ 다시 보면 이해할수 있겠죠?? 🤯
괜찮습니드 부족한 부분이 뭐였나 차근히 생각해보면서 도전해보세요 😊
@@AngeloYeo 혹시 Cohen's d 관련 영상 있으신가요??
@@jekphotography3919 아쉽게도 Cohen's D 영상은 없습니다.
6 개월 뒤에 다시 보러 왔는데 이제야 이해를 ㅜㅜㅜ 감사합니다 ^.^
와 축하드립니다 👏👏
제가 이해한걸 풀어보면
_____________________
1. "키가 크는 신약을 개발했다."
2. "신약을 먹으면 실제로 키가 크는지 검증하기 위해 다음과 같은 실험을 구성했다"
3. "n1명의 지원자를 모아 키크는 신약 약을 주고 ,n2명의 지원자를 모아 플라시보약을 준다. 그리고 6개월 후 신약을 먹은 사람들의 키가 큰 평균값 a과 플라시보약을 먹은 사람들의 키가 큰 평균 값 b을 계산하여 a-b>0 이면 신약은 약효가 있는것이다"
4. 이 때 a-b는 통계적 가설의 진위여부를 검정할 수 있도록 표본으로부터 계산한 통계량이기 때문에 검정 통계량은 맞으나 다음과 같은 문제점이 있다.
5. "문제 제기: n1명의 지원자에게도 플라시보약(혹은 약효가 전혀 없는 신약)을 주고, n2명의 지원자에게도 플라시보약을 줘도 a-b>0 일 수 있지않느냐?"
6. 즉, 표본 그룹의 평균값들은 오차를 수반한다는 사실을 고려하지 못한것이다.
7. "문제 제기가 합당하므로 a-b를 대체할만한 검정 통계량이 필요했다."
8. 이 때 사용하는 검정 통계량 t-value 즉 "차이(a-b)/불확실성" 이다.
9. "t-value를 사용하면 a-b가 아무리커도 불확실성이 높으면 작은 값이되기 때문에 a-b를 검정 통계량으로 쓰는 것 보다는 합리적이다"
10. t-value에서 분모인 불확실도를 계산할 때 √(var[x'1-x'2]) = √(var[Y]), 이 때 Y=x'1-x'2(=a-b) 이므로 이를 다시표현하면 "표본 통계량 Y의 표준 편차" = "두 집단의 약효평균의 차이의 표준 편차" = "Y의 표본 오차" 이다.
11. 불확실도("Y의 표본 오차")를 공식이 아닌 무식하게 샘플링하여 계산한다면 두 집단의 약효평균의 차이(Yi)를 10,000번 계산(각 집단도 10,000번 뽑힘) 한 후 이때 나온 Yi(=ai-bi) 10,000개로 평균을 계산하고 표준 편차를 계산하면된다. 하지만 이것은 엄청난 비용이 든다.
12. 불확실도("Y의 표본 오차")를 공식으로 풀면 "신약을 먹은 n1명의 표본 집단의 키가 큰 값에 대한 표준 편차" = s1 과 "플라시보약을 먹은 n2명의 표본 집단의 키가 큰 값에 대한 표준 편차" = s2만 추가로 계산해도 불확실도를 계산할 수 있다. 따라서 11 방법에 비해 엄청난 비용을 절약할 수 있다.
-----------------------------------
잘 이해한게 맞나요?
혹시 틀린 번호가 있다면 몇 번인가요?
제목만 봐도 어렵다
ㅠㅠ
외국 영상ruclips.net/video/mXVGIb3bzHI/видео.html
용달님 영상ruclips.net/video/NEDZVbQhKRk/видео.html