안녕하세요 교수님, 친절한 설명 감사합니다. 패널데이터를 가지고 과제 연구를 하고 있는데 궁금한 점이 있어서요. 질문을 남겨도될까요? 연구의 시작은 y의 차이가 지역별 x의 차이에서 비롯되었을 것이다 였습니다. 지역이 17개라서 샘플수를 위해 10년치 자료를 수집하여서 분석해보자 했는데, 지역별 고정효과를 생각해야 한다고 하더라구요. 1) 랜덤효과로 돌렸을 때는 x가 유의하다고 하였는데, 지역을 고정하는방법(더미변수로 넣기엔 샘플수가 조금 작은거 같아서, within estimator방법으로) 분석을 돌렸을때는 x가 유의하지 않다고 하면 어떻게 해석을 해야하는 것일까요? 2) 처음 생각은 지역별 x의 차이를 살펴보는 것이었는데 지역고정항을 추가하면 x차이도 고정항에 흡수되어버리지는 않는지, 그렇다면 혹시 연도를 고정효과로 두고 분석을 하게되면 틀린 것일까요? 구체적으로 쓰자면, x1은 y의 선행요건으로 생각되는, 그 효과가 너무 확실한 변수라서 넣고, 제가 관심있는것은 x2의 효과인데요. Y= ax1 + bx2 + cx1×x2 + e 이렇게 모델을 잡고 분석을 했습니다.
패널데이터에서 시간에 따라 변하지 않고 고정되어 있는 지역 변수 x 는 지역별 고정효과에 의해서 모두 흡수되어 버리고 효과 추정이 불가합니다 (Within estimator 등의 방법으로 추정치가 도출되었다고 하더라도 의미없는 계수일 가능성이 높습니다). 따라서, 연구의 목적이 고정된 지역 변수의 효과를 추정하는 것이라면 랜덤효과를 적용할 수 밖에 없지 않을까 생각되며, 연도에 따른 고정효과는 지역별 고정효과와는 별개로 추가하는 것이 일반적이기도 합니다.
여러 연구방법론 수업을 들었지만 고정효과가 가장 명확하게 직관적으로 이해가 가네요. 꼭 끝까지 완강하겠습니다 교수님. 수식적으로만 이해하던 계량경제 개념들을 정리하는데 매우 큰 도움이 됩니다. 매번 감사드리고 싶은데 방법이 없네요. IS 주요 저널들을 보면 random effect를 사용한 것을 본 게 정말 드문데, random effect의 가정이비현실적이기 때문인거죠? 개체 (특히 조직)의 효과가 설명변수의 data generation과 독립적이라는 것인데 이건 논리적으로 말이 안되고요. 다만 강의를 듣다가 한가지 의문이 생겼는데, 연구질문에 따라 time-invariant 한 variable의 회귀 계수를 추정해야 하는 경우가 생기는데. 이 때에도 random effect를 사용하는 것이 바람직하지 않은 것인지 궁금합니다.
세부 방법론에 대해서 조금 더 깊이 들어가면 때론 수식이 의미를 더 간결하게 전달하는 경우도 있지만, 개념들 간의 커넥션을 만들어서 큰 그림을 이해하기 위해서는 개념적인 이해가 선행되어야 한다고 생각합니다. 강의들이 계량경제 개념들을 정리하는데 도움이 된다니 기쁘네요. Random effects 관련해서는 가정이 비현실적이라고 볼 수 도 있고 selection bias 를 통제하는데 제 역할을 하지 못하기 때문에 잘 활용하지 않는다고도 볼 수 있을 것 같습니다. 인과추론 관점에서 random effects 가 의미있게 활용되는 경우는 unit-specific effect 가 random variable 로 설명 가능할 때인데, 대표적으로 panel unit 이 전체 population 에서 random sampling 되는 경우일테지만 사회과학에서는 이러한 경우는 매우 드물 것입니다. 그리고, 특수한 경우에 time-invariant variable 의 회귀계수 추정이 필요하면 충분한 설명과 함께 RE model + time-invariant variables 을 보여주는 건 가능할 것 같습니다. 다만, 개인적으로는 time-invariant variable 의 회귀 계수를 추정하는 이유에 대해서 재고해볼 필요도 있다고 생각하는데, (i) 만약 main treatment variable 이라면, 시간에 따라 변하지 않는 요인이 intervention 이 가능한 종류의 의미있는 treatment 인지 생각해봐야 할테고, (ii) 만약 pre-treatment periods 의 데이터가 없는 경우라면 데이터 수집이 추가적으로 가능한지 생각해보고, 아니라면 FE 없는 모델의 한계점을 분명히 인식하고 그걸 효과적으로 해결할 수 있는 전략에 대해 고민해야 하며, (iii) 만약 control variable 이라면, 그저 correlation 을 나타낼 회귀 계수에 대해서 굳이 해석해야 할 이유는 없다고 생각합니다.
@@causaldatascience 교수님의 친절한 설명을 들으면서 심도 있게 고민할 수 있었던 좋은 계기가 된 것 같습니다. 울드릿지 교과서를 보면서 hausman 검정의 귀무가설로 random effect가 설정되어 있음에도 왜 fixed effect를 더 자주 사용하는 지가 궁금했었는데, 이번 교수님의 설명을 통해 궁금증이 해소되었습니다. hausman 검정을 기계적으로 사용하면 안되는 이유에 대해서 친절하게 설명해주셔서 정말 감사드립니다 교수님.
안녕하세요 교수님 좋은 강의 감사드립니다. 계량경제학을 좀 더 체계적으로 이해하는 데에 교수님 강의가 매우 큰 도움이 됩니다. 다름이 아니라, 제가 질문을 드리고 싶은 것이 있습니다. 패널데이터를 가지고 giver 와 recipient의 특정 특성이 recipient의 선물 소비에 어떤 영향을 끼치는 지에 대해 분석을 하려고 할 때, 1) 만약 recipient fixed effect를 넣었다면, recipient의 demographic information (e.g., 나이, 성별)은 추가적으로 컨트롤 하면 안되는 것이지요? 근데, 데이터 분석 기간이 길어서 데이터 상으로 recipient의 나이가 변화하였다거나 할 때, 이것을 time varying으로 봐야하나요? 2) 만약 recipient fixed effect를 넣었는데, recipient의 time-invariant한 특성 중 하나가 다른 어떤 time-varying한 변수와 interact한다고 하면, interaction term을 넣어야 하나요? 3) recipient 특성의 endogeneity를 컨트롤 하기 위해 (e.g., control function approach나 heckman's selection bias) 추가적인 컨트롤을 해주었다면 이게 recipient fixed effect를 추가한 것과 배치되지 않나요? 4) 주고 받은 선물의 특성을 컨트롤 하려고 하면 그 선물의 개별 특성들 (time-invariant 하다고 추정되는)을 따로 개별 변수로 측정해서 직접 컨트롤 해주는 것과 gift fixed effect를 넣는 것 어떤 방법이 선호되나요? 제 생각에는 이 문제는 약간 연산 효율에 더 관련된 문제인 것 같아보이긴 합니다. 마지막으로 혹시 제 질문을 답하는 데에 도움이 될 수 있는 좋은 책이나 자료 등을 알려주시면 매우 감사하겠습니다! 감사합니다.
상세한 질문 감사합니다. 하나씩 답변을 드리자면, 1) 만약 recipient fixed effect를 넣었다면, recipient의 demographic information (e.g., 나이, 성별)은 추가적으로 컨트롤 하면 안되는 것이지요? 근데, 데이터 분석 기간이 길어서 데이터 상으로 recipient의 나이가 변화하였다거나 할 때, 이것을 time varying으로 봐야하나요? -> 맞습니다. demographic information 을 넣으려고 해도 만약 time-invariant 하다면 perfect collinearity 로 인해 아마 통계프로그램에서 자동으로 누락하게 될 것입니다 (해당 변수가 누락되지 않았다면, fixed effects 중 하나가 누락되었을 거고 해당 변수의 coefficient 는 one of fixed effects 에 지나지 않기 때문에 큰 의미는 없습니다). Fixed effects 를 통해 나이, 성별 뿐 아니라 time-invariant unobserved factors 를 모두 통제할 수 있기 때문에 더 보수적인 방법이라고 이해할 수 있습니다. 다만, 말씀하신대로 분석 기간이 길어서 변화가 있다면 당연히 time-varying 이겠지요. 2) 만약 recipient fixed effect를 넣었는데, recipient의 time-invariant한 특성 중 하나가 다른 어떤 time-varying한 변수와 interact한다고 하면, interaction term을 넣어야 하나요? -> time-varying factor X time-invariant factor = time-varying factor 이기 때문에 필요에 따라 interaction term 을 넣는 것은 무방합니다. 다만, time-invariant factor 에 대한 main term 은 누락되겠지요. 3) recipient 특성의 endogeneity를 컨트롤 하기 위해 (e.g., control function approach나 heckman's selection bias) 추가적인 컨트롤을 해주었다면 이게 recipient fixed effect를 추가한 것과 배치되지 않나요? -> Control function 과 Heckman selection model 과 배치된다는 게 어떤 의미인지 정확히 이해는 못했지만, 해당 방법들은 도구변수를 활용해서 time-varying unobserved factors 들을 해결하려는 접근이기 때문에 time-invariant unobserved factors 를 고려하고자 하는 fixed effects 와 함께 활용해도 무방합니다. 4) 주고 받은 선물의 특성을 컨트롤 하려고 하면 그 선물의 개별 특성들 (time-invariant 하다고 추정되는)을 따로 개별 변수로 측정해서 직접 컨트롤 해주는 것과 gift fixed effect를 넣는 것 어떤 방법이 선호되나요? -> 분석 목적에 따라서 선물의 개별 특성에 대한 해석이 중요한 경우에는 불가피하게 개별 변수를 컨트롤 하는 것이 필요하겠지만, 그렇지 않은 경우 gift fixed effects 가 보수적인 추정으로서 더 선호된다고 생각합니다. 정확한 데이터분석 컨텍스트가 없어 일반론적 측면에서 답변드릴 수 밖에 없었지만 혹시 추가적인 궁금증이 있으시면 이메일(jiyong.park@uga.edu)로 보다 상세한 컨텍스트와 함께 질문 주시면 답변드리겠습니다. 모쪼록 답변이 도움이 되셨길 바랄게요.
교수님, 먼저 좋은 강의 감사합니다. 질문이 있어 남깁니다. 표에서 계산하신 TWFE를 고려하여 계산한 treatment effect 값 과정이 DID와 일치해보입니다. 최근해 본 논문도 standard DID라고 언급하고 1) Y_it = α + β1Treatment_it-2 + δ_i + γ_t + e_st 형태로 사용한 것을 봤습니다. 저희가 흔히 사용하는 2) treatment * post 상호작용항을 포함한 DID equation과 같은 DID가 맞는건가요? 추가적으로 3) 상호작용항을 포함한 DID 모형 with TWFE와도 같은 형태인건가요? 1), 2), 3) 각 차이를 알려주시면 감사하겠습니다.
예리한 포인트이며 좋은 질문입니다. 결론부터 말하면, 이중차분법이 적용가능한 상황에서 TWFE 와 DID 는 동일한 모델입니다 (고정효과의 역할에 대해 다시 한번 생각해보면 어렵지 않게 이해될 수 있을 것이라 생각합니다). 수식 1 과 수식 2, 3 의 차이는 TWFE 와 DID 의 차이에 관한 것이 아니라, treatment 가 동일한 시점에 발생하느냐 (수식 2 또는 3 처럼 상호작용항 포함 가능한 상황) 상이한 시점에 발생하느냐 (수식 1 처럼 Treatment_it 로 포현할 수 밖에 없는 상황)의 차이입니다. 1. 만약 t = 2 (pre- and post-treatment periods 만 있는 경우)라면, TWFE 와 standard DID 추정량은 정확히 일치합니다 (상호작용항과 TWFE 를 함께 포함해도 마찬가지입니다). 만약 t > 3 이라면, 추정량이 조금은 다를 수 있는데 이는 fixed effects 를 구현할 때 first-difference 를 고려할 때와 dummy variables 을 활용할 때의 통계적 차이에 기인할 뿐 기본 목적 자체는 동일합니다. 2. Treatment 가 상이하게 발생하는 경우 (i.e., staggered adoption of treatment), 상호작용항을 포함하는 일반적인 DID equation 을 사용할 수 없습니다. 따라서, 이 때는 TWFE 를 통해서만 DID 의 구현이 가능합니다. 3. 하지만, 동시에 staggered adoption of treatment 상황에서 TWFE 를 활용하는 것은 문제가 있고, 이를 해결하기 위한 다양한 advanced DID model 들이 최근에 많이 제안되고 있습니다. 이중차분법에 관한 강의를 참고해주세요.
@@causaldatascience 교수님 답변주셔서 감사합니다. 헷갈리는게 있어 질문 남깁니다. 1. t=2인 경우 수식 1)은 개인고정효과를 통해 개인간의 차이를 통제함으로써 개인 내 시간에 따른 차이를 비교 가능하게 합니다. (within group comparision) + 시간고정효과를 통해 year effect를 통제함으로써 한 시점에서의 처치집단과 통제집단을 비교 가능하게 합니다. (within time comparision) 따라서 수식 2)와 같아집니다. 이 말은 거꾸로 수식2) 의 추정치 역시 개인고정효과와 시간고정효과를 제거한 순수 처치효과를 포착했다는 얘기가 맞나요? 2. 위 설명이 맞다면, card & crueger minimum wage 논문처럼 두기간이 있는 경우에도 수식 3) 모형 (DID with TWFE)을 사용하는 것으로 알고 있는데 이미 수식 2)에서 고정효과를 다 포착한 상황인데 추가적으로 고정효과를 포함하는 이유가 무엇인지 궁금합니다. 이미 제거된 상황이 아닌가요? 또한 수식2)와 수식3)은 표준오차가 차이가 있을 것 같은데 수식3)이 더 비효율적으로 되는게 아닌가 생각이 듭니다.
1. 수식 1) 에서 TWFE 를 통한 DID 추정치는 개인고정효과와 시간고정효과를 제외한 후, 두 그룹의 전후 차이의 차이의 평균을 계산합니다. 수식 2) 에서는 고정효과를 포함하지 않기 때문에 모든 고정효과를 배제했다고 보기는 어렵지만, 적어도 전후 차이를 통해 각 그룹에서의 평균적인 개인고정효과를 배제하고, 두 그룹 간의 차이를 통해 평균적인 시간고정효과를 배제하게 됩니다. 즉, 수식 1) 은 고정효과 배제 후 평균을 구하는 것이고, 수식 2) 는 고정효과의 평균을 배제하는 것이며, 결과적으로 DID 추정량은 같아집니다. 2. Card & crueger minimum wage 논문처럼 standard DID 세팅에서는 DID with main terms + interaction term = DID with TWFE + interaction term 이기 때문에, 둘 중에 어느것을 써도 무방하다고 생각합니다. TWFE 의 역할은 treatment group 과 post-treatment period 에 대한 main terms 을 흡수하는 역할을 하며, 어떤 경우에도 interaction term 은 포함되고 이것이 DID 추정량을 캡쳐하게 됩니다.
@@causaldatascience 교수님 technical한 부분을 질문드렸던 것 같은데 상세히 답변해주셔서 감사합니다. 제 이해가 맞는지 확인해주시면 감사하겠습니다. t=2 상황에서, 말씀하신 것처럼 수식2)가 직접적으로 고정효과항을 포함하지 않았지만 평균적인 시간 및 개인 고정효과를 배제함 수식3)으로 TWFE를 추가적으로 포함하면 직접적으로 고정효과를 잡는다는 것이고 이미 차이의 차이로 평균적인 시간 및 개인 고정효과가 제거된 상황이기 때문에 결과가 크게 달라지지 않을 것이다. 위가 맞다면, 그럼 넣지 않는게 보수적인 추정일까요? 그리고 연구자가 고정효과항을 추가하기로 결정한다면 그 근거가 표준오차가 작아질 수 있기 때문일까요?
t = 2 이면 결과가 크게 다르지 않은게 아니라 정확히 동일합니다 (Degree of freedom 때문에 s.e. 는 조금 다를 수 있겠지만요). 그렇기 때문에 어떤걸 써도 무방하다고 생각합니다. 하지만, 대부분의 경우에 t > 2 이고, first-difference 방법 보다는 fixed effects model (dummy variables) 이 더 선호되는 방법이기 때문에 TWFE 를 쓰는 것이 선호되며, 이는 staggered DID 와도 관련이 깊기도 합니다. 결론적으로, 저라면 모든 경우에 TWFE 를 쓰는 것을 고려하고 staggered treatment 가 있는 경우라면 TWFE 가 아닌 advanced models 을 쓸 것입니다.
교수님. 좋은 강의 정말 감사합니다.
좋은 강의에 감사드립니다.
안녕하세요 교수님, 친절한 설명 감사합니다. 패널데이터를 가지고 과제 연구를 하고 있는데 궁금한 점이 있어서요. 질문을 남겨도될까요?
연구의 시작은 y의 차이가 지역별 x의 차이에서 비롯되었을 것이다 였습니다. 지역이 17개라서 샘플수를 위해 10년치 자료를 수집하여서 분석해보자 했는데, 지역별 고정효과를 생각해야 한다고 하더라구요.
1) 랜덤효과로 돌렸을 때는 x가 유의하다고 하였는데,
지역을 고정하는방법(더미변수로 넣기엔 샘플수가 조금 작은거 같아서, within estimator방법으로) 분석을 돌렸을때는 x가 유의하지 않다고 하면 어떻게 해석을 해야하는 것일까요?
2) 처음 생각은 지역별 x의 차이를 살펴보는 것이었는데 지역고정항을 추가하면 x차이도 고정항에 흡수되어버리지는 않는지, 그렇다면 혹시 연도를 고정효과로 두고 분석을 하게되면 틀린 것일까요?
구체적으로 쓰자면, x1은 y의 선행요건으로 생각되는, 그 효과가 너무 확실한 변수라서 넣고, 제가 관심있는것은 x2의 효과인데요.
Y= ax1 + bx2 + cx1×x2 + e 이렇게 모델을 잡고 분석을 했습니다.
패널데이터에서 시간에 따라 변하지 않고 고정되어 있는 지역 변수 x 는 지역별 고정효과에 의해서 모두 흡수되어 버리고 효과 추정이 불가합니다 (Within estimator 등의 방법으로 추정치가 도출되었다고 하더라도 의미없는 계수일 가능성이 높습니다). 따라서, 연구의 목적이 고정된 지역 변수의 효과를 추정하는 것이라면 랜덤효과를 적용할 수 밖에 없지 않을까 생각되며, 연도에 따른 고정효과는 지역별 고정효과와는 별개로 추가하는 것이 일반적이기도 합니다.
여러 연구방법론 수업을 들었지만 고정효과가 가장 명확하게 직관적으로 이해가 가네요. 꼭 끝까지 완강하겠습니다 교수님. 수식적으로만 이해하던 계량경제 개념들을 정리하는데 매우 큰 도움이 됩니다. 매번 감사드리고 싶은데 방법이 없네요.
IS 주요 저널들을 보면 random effect를 사용한 것을 본 게 정말 드문데, random effect의 가정이비현실적이기 때문인거죠? 개체 (특히 조직)의 효과가 설명변수의 data generation과 독립적이라는 것인데 이건 논리적으로 말이 안되고요.
다만 강의를 듣다가 한가지 의문이 생겼는데, 연구질문에 따라 time-invariant 한 variable의 회귀 계수를 추정해야 하는 경우가 생기는데. 이 때에도 random effect를 사용하는 것이 바람직하지 않은 것인지 궁금합니다.
세부 방법론에 대해서 조금 더 깊이 들어가면 때론 수식이 의미를 더 간결하게 전달하는 경우도 있지만, 개념들 간의 커넥션을 만들어서 큰 그림을 이해하기 위해서는 개념적인 이해가 선행되어야 한다고 생각합니다. 강의들이 계량경제 개념들을 정리하는데 도움이 된다니 기쁘네요.
Random effects 관련해서는 가정이 비현실적이라고 볼 수 도 있고 selection bias 를 통제하는데 제 역할을 하지 못하기 때문에 잘 활용하지 않는다고도 볼 수 있을 것 같습니다. 인과추론 관점에서 random effects 가 의미있게 활용되는 경우는 unit-specific effect 가 random variable 로 설명 가능할 때인데, 대표적으로 panel unit 이 전체 population 에서 random sampling 되는 경우일테지만 사회과학에서는 이러한 경우는 매우 드물 것입니다. 그리고, 특수한 경우에 time-invariant variable 의 회귀계수 추정이 필요하면 충분한 설명과 함께 RE model + time-invariant variables 을 보여주는 건 가능할 것 같습니다. 다만, 개인적으로는 time-invariant variable 의 회귀 계수를 추정하는 이유에 대해서 재고해볼 필요도 있다고 생각하는데, (i) 만약 main treatment variable 이라면, 시간에 따라 변하지 않는 요인이 intervention 이 가능한 종류의 의미있는 treatment 인지 생각해봐야 할테고, (ii) 만약 pre-treatment periods 의 데이터가 없는 경우라면 데이터 수집이 추가적으로 가능한지 생각해보고, 아니라면 FE 없는 모델의 한계점을 분명히 인식하고 그걸 효과적으로 해결할 수 있는 전략에 대해 고민해야 하며, (iii) 만약 control variable 이라면, 그저 correlation 을 나타낼 회귀 계수에 대해서 굳이 해석해야 할 이유는 없다고 생각합니다.
@@causaldatascience 교수님의 친절한 설명을 들으면서 심도 있게 고민할 수 있었던 좋은 계기가 된 것 같습니다. 울드릿지 교과서를 보면서 hausman 검정의 귀무가설로 random effect가 설정되어 있음에도 왜 fixed effect를 더 자주 사용하는 지가 궁금했었는데, 이번 교수님의 설명을 통해 궁금증이 해소되었습니다. hausman 검정을 기계적으로 사용하면 안되는 이유에 대해서 친절하게 설명해주셔서 정말 감사드립니다 교수님.
안녕하세요 교수님 좋은 강의 감사드립니다. 계량경제학을 좀 더 체계적으로 이해하는 데에 교수님 강의가 매우 큰 도움이 됩니다. 다름이 아니라, 제가 질문을 드리고 싶은 것이 있습니다. 패널데이터를 가지고 giver 와 recipient의 특정 특성이 recipient의 선물 소비에 어떤 영향을 끼치는 지에 대해 분석을 하려고 할 때, 1) 만약 recipient fixed effect를 넣었다면, recipient의 demographic information (e.g., 나이, 성별)은 추가적으로 컨트롤 하면 안되는 것이지요? 근데, 데이터 분석 기간이 길어서 데이터 상으로 recipient의 나이가 변화하였다거나 할 때, 이것을 time varying으로 봐야하나요? 2) 만약 recipient fixed effect를 넣었는데, recipient의 time-invariant한 특성 중 하나가 다른 어떤 time-varying한 변수와 interact한다고 하면, interaction term을 넣어야 하나요? 3) recipient 특성의 endogeneity를 컨트롤 하기 위해 (e.g., control function approach나 heckman's selection bias) 추가적인 컨트롤을 해주었다면 이게 recipient fixed effect를 추가한 것과 배치되지 않나요? 4) 주고 받은 선물의 특성을 컨트롤 하려고 하면 그 선물의 개별 특성들 (time-invariant 하다고 추정되는)을 따로 개별 변수로 측정해서 직접 컨트롤 해주는 것과 gift fixed effect를 넣는 것 어떤 방법이 선호되나요? 제 생각에는 이 문제는 약간 연산 효율에 더 관련된 문제인 것 같아보이긴 합니다. 마지막으로 혹시 제 질문을 답하는 데에 도움이 될 수 있는 좋은 책이나 자료 등을 알려주시면 매우 감사하겠습니다! 감사합니다.
상세한 질문 감사합니다. 하나씩 답변을 드리자면,
1) 만약 recipient fixed effect를 넣었다면, recipient의 demographic information (e.g., 나이, 성별)은 추가적으로 컨트롤 하면 안되는 것이지요? 근데, 데이터 분석 기간이 길어서 데이터 상으로 recipient의 나이가 변화하였다거나 할 때, 이것을 time varying으로 봐야하나요?
-> 맞습니다. demographic information 을 넣으려고 해도 만약 time-invariant 하다면 perfect collinearity 로 인해 아마 통계프로그램에서 자동으로 누락하게 될 것입니다 (해당 변수가 누락되지 않았다면, fixed effects 중 하나가 누락되었을 거고 해당 변수의 coefficient 는 one of fixed effects 에 지나지 않기 때문에 큰 의미는 없습니다). Fixed effects 를 통해 나이, 성별 뿐 아니라 time-invariant unobserved factors 를 모두 통제할 수 있기 때문에 더 보수적인 방법이라고 이해할 수 있습니다. 다만, 말씀하신대로 분석 기간이 길어서 변화가 있다면 당연히 time-varying 이겠지요.
2) 만약 recipient fixed effect를 넣었는데, recipient의 time-invariant한 특성 중 하나가 다른 어떤 time-varying한 변수와 interact한다고 하면, interaction term을 넣어야 하나요?
-> time-varying factor X time-invariant factor = time-varying factor 이기 때문에 필요에 따라 interaction term 을 넣는 것은 무방합니다. 다만, time-invariant factor 에 대한 main term 은 누락되겠지요.
3) recipient 특성의 endogeneity를 컨트롤 하기 위해 (e.g., control function approach나 heckman's selection bias) 추가적인 컨트롤을 해주었다면 이게 recipient fixed effect를 추가한 것과 배치되지 않나요?
-> Control function 과 Heckman selection model 과 배치된다는 게 어떤 의미인지 정확히 이해는 못했지만, 해당 방법들은 도구변수를 활용해서 time-varying unobserved factors 들을 해결하려는 접근이기 때문에 time-invariant unobserved factors 를 고려하고자 하는 fixed effects 와 함께 활용해도 무방합니다.
4) 주고 받은 선물의 특성을 컨트롤 하려고 하면 그 선물의 개별 특성들 (time-invariant 하다고 추정되는)을 따로 개별 변수로 측정해서 직접 컨트롤 해주는 것과 gift fixed effect를 넣는 것 어떤 방법이 선호되나요?
-> 분석 목적에 따라서 선물의 개별 특성에 대한 해석이 중요한 경우에는 불가피하게 개별 변수를 컨트롤 하는 것이 필요하겠지만, 그렇지 않은 경우 gift fixed effects 가 보수적인 추정으로서 더 선호된다고 생각합니다.
정확한 데이터분석 컨텍스트가 없어 일반론적 측면에서 답변드릴 수 밖에 없었지만 혹시 추가적인 궁금증이 있으시면 이메일(jiyong.park@uga.edu)로 보다 상세한 컨텍스트와 함께 질문 주시면 답변드리겠습니다. 모쪼록 답변이 도움이 되셨길 바랄게요.
@@causaldatascience빠른 답변 너무 감사드립니다. 답변 덕분에 중요한 개념들에 대한 이해가 더 쉬워졌습니다. 좋은 강의 공유해주셔서 감사드리고 앞으로도 열심히 듣고 질문드리겠습니다.
교수님, 먼저 좋은 강의 감사합니다. 질문이 있어 남깁니다.
표에서 계산하신 TWFE를 고려하여 계산한 treatment effect 값 과정이
DID와 일치해보입니다.
최근해 본 논문도 standard DID라고 언급하고 1) Y_it = α + β1Treatment_it-2 + δ_i + γ_t + e_st 형태로 사용한 것을 봤습니다.
저희가 흔히 사용하는 2) treatment * post 상호작용항을 포함한 DID equation과 같은 DID가 맞는건가요?
추가적으로 3) 상호작용항을 포함한 DID 모형 with TWFE와도 같은 형태인건가요?
1), 2), 3) 각 차이를 알려주시면 감사하겠습니다.
예리한 포인트이며 좋은 질문입니다. 결론부터 말하면, 이중차분법이 적용가능한 상황에서 TWFE 와 DID 는 동일한 모델입니다 (고정효과의 역할에 대해 다시 한번 생각해보면 어렵지 않게 이해될 수 있을 것이라 생각합니다). 수식 1 과 수식 2, 3 의 차이는 TWFE 와 DID 의 차이에 관한 것이 아니라, treatment 가 동일한 시점에 발생하느냐 (수식 2 또는 3 처럼 상호작용항 포함 가능한 상황) 상이한 시점에 발생하느냐 (수식 1 처럼 Treatment_it 로 포현할 수 밖에 없는 상황)의 차이입니다.
1. 만약 t = 2 (pre- and post-treatment periods 만 있는 경우)라면, TWFE 와 standard DID 추정량은 정확히 일치합니다 (상호작용항과 TWFE 를 함께 포함해도 마찬가지입니다). 만약 t > 3 이라면, 추정량이 조금은 다를 수 있는데 이는 fixed effects 를 구현할 때 first-difference 를 고려할 때와 dummy variables 을 활용할 때의 통계적 차이에 기인할 뿐 기본 목적 자체는 동일합니다.
2. Treatment 가 상이하게 발생하는 경우 (i.e., staggered adoption of treatment), 상호작용항을 포함하는 일반적인 DID equation 을 사용할 수 없습니다. 따라서, 이 때는 TWFE 를 통해서만 DID 의 구현이 가능합니다.
3. 하지만, 동시에 staggered adoption of treatment 상황에서 TWFE 를 활용하는 것은 문제가 있고, 이를 해결하기 위한 다양한 advanced DID model 들이 최근에 많이 제안되고 있습니다. 이중차분법에 관한 강의를 참고해주세요.
@@causaldatascience
교수님 답변주셔서 감사합니다. 헷갈리는게 있어 질문 남깁니다.
1. t=2인 경우
수식 1)은 개인고정효과를 통해 개인간의 차이를 통제함으로써 개인 내 시간에 따른 차이를 비교 가능하게 합니다. (within group comparision) + 시간고정효과를 통해 year effect를 통제함으로써 한 시점에서의 처치집단과 통제집단을 비교 가능하게 합니다. (within time comparision)
따라서 수식 2)와 같아집니다.
이 말은 거꾸로 수식2) 의 추정치 역시 개인고정효과와 시간고정효과를 제거한 순수 처치효과를 포착했다는 얘기가 맞나요?
2. 위 설명이 맞다면,
card & crueger minimum wage 논문처럼 두기간이 있는 경우에도 수식 3) 모형 (DID with TWFE)을 사용하는 것으로 알고 있는데
이미 수식 2)에서 고정효과를 다 포착한 상황인데 추가적으로 고정효과를 포함하는 이유가 무엇인지 궁금합니다. 이미 제거된 상황이 아닌가요?
또한 수식2)와 수식3)은 표준오차가 차이가 있을 것 같은데 수식3)이 더 비효율적으로 되는게 아닌가 생각이 듭니다.
1. 수식 1) 에서 TWFE 를 통한 DID 추정치는 개인고정효과와 시간고정효과를 제외한 후, 두 그룹의 전후 차이의 차이의 평균을 계산합니다. 수식 2) 에서는 고정효과를 포함하지 않기 때문에 모든 고정효과를 배제했다고 보기는 어렵지만, 적어도 전후 차이를 통해 각 그룹에서의 평균적인 개인고정효과를 배제하고, 두 그룹 간의 차이를 통해 평균적인 시간고정효과를 배제하게 됩니다. 즉, 수식 1) 은 고정효과 배제 후 평균을 구하는 것이고, 수식 2) 는 고정효과의 평균을 배제하는 것이며, 결과적으로 DID 추정량은 같아집니다.
2. Card & crueger minimum wage 논문처럼 standard DID 세팅에서는 DID with main terms + interaction term = DID with TWFE + interaction term 이기 때문에, 둘 중에 어느것을 써도 무방하다고 생각합니다. TWFE 의 역할은 treatment group 과 post-treatment period 에 대한 main terms 을 흡수하는 역할을 하며, 어떤 경우에도 interaction term 은 포함되고 이것이 DID 추정량을 캡쳐하게 됩니다.
@@causaldatascience
교수님 technical한 부분을 질문드렸던 것 같은데 상세히 답변해주셔서 감사합니다.
제 이해가 맞는지 확인해주시면 감사하겠습니다.
t=2 상황에서,
말씀하신 것처럼 수식2)가 직접적으로 고정효과항을 포함하지 않았지만 평균적인 시간 및 개인 고정효과를 배제함
수식3)으로 TWFE를 추가적으로 포함하면 직접적으로 고정효과를 잡는다는 것이고 이미 차이의 차이로 평균적인 시간 및 개인 고정효과가 제거된 상황이기 때문에 결과가 크게 달라지지 않을 것이다.
위가 맞다면, 그럼 넣지 않는게 보수적인 추정일까요? 그리고 연구자가 고정효과항을 추가하기로 결정한다면 그 근거가 표준오차가 작아질 수 있기 때문일까요?
t = 2 이면 결과가 크게 다르지 않은게 아니라 정확히 동일합니다 (Degree of freedom 때문에 s.e. 는 조금 다를 수 있겠지만요). 그렇기 때문에 어떤걸 써도 무방하다고 생각합니다. 하지만, 대부분의 경우에 t > 2 이고, first-difference 방법 보다는 fixed effects model (dummy variables) 이 더 선호되는 방법이기 때문에 TWFE 를 쓰는 것이 선호되며, 이는 staggered DID 와도 관련이 깊기도 합니다. 결론적으로, 저라면 모든 경우에 TWFE 를 쓰는 것을 고려하고 staggered treatment 가 있는 경우라면 TWFE 가 아닌 advanced models 을 쓸 것입니다.