안녕하세요 강의를 진짜 여러번 정독 하면서 이해를 하고자 하고 있습니다. 다만, 강의 중 궁금한게 있어서 이렇게 댓글 남깁니다. 1. 최상의 모델과 오차분석 - 최상의 모델을 나열하여 median_income을 제일 좋은 특성으로 찾았습니다. 근데 여기서 왜 오차 분석으로 되는지 궁금합니다. 2. 테스트 세트로 시스템 평가하기 - 여기선 최종 모델로 mean_squared_Error로 rmse값을 산출했습니다. 가격은 47873.xxxx 인데요 그 다음 95% 신뢰 구간을 설정하여 +- 를 주셨습니다. - 그렇다면 이게 실제 타겟값의 무슨 뜻을 의미하는건가여 ?? 이게 주제가 집값 예측 문제인데요 저 rmse 값이 무엇을 의미하는지 도통 이해가 가지 않습니다 ㅠ 결론적으로 47873 값이 집값 예측 가격인데 어떤 관계로 저 값이 나와서 설명을 해야하는건가여 ? 3. 모델 - 위에서 보면 여러가지 모델을 이용하여 진행하셨습니다. 제가 공부한 이론으로는 여러가지 모델을 선택하여 훈련함으로써 최적의 모델을 찾는거라고 이해하고 있는데, 테스트 세트에서는 mean_squared_Error만 사용하셨습니다 혹시 그 이유가 있는건가여 ?
해선님 질문드립니다.16분경 교차검증(트리모델)수행에 대해 질문드립니다. 결정트리의 경우 교차검증코드 이전에 훈련세트를 한번에 학습시키는 과정에서 0이라는 과대적합의 결과가 나왔습니다. 이게 왜 교차검증을 통한다고 약70000달러에 해당하는 오차가 발생하는지 이해가 되지 않습니다. 테스트세트는 그대로 두고 훈련세트를 10부분으로 나누어 첫번째로 9구간의 훈련세트를 트리모델로 훈련시키고 검증세트에서 검증했을때 왜 이전과 같이 0의 결과가 나오지 않는건가요? 딱히 달라지는 점이 없다고 생각이 드는데, 제가 이해를 조금 잘못하고 있는걸까요?
처음 결정트리를 이용할때 결과가 0으로 나오는 이유는 대강 이해가 갑니다. 훈련세트에 과도하게 적합된, 즉 가지치기가 처음엔 합리적이었다가 거의 최종가지치기에서는 다른 데이터집단은 수용하지 못할 논리로 분류가 되는? 그런 이유때문에 트리모델에서 오차가 0으로 나왔다고 생각이 듭니다. 이 논리를 정확하게 교차검증에 적용해도 교차검증마다 모든 점수가 0으로 떠야하지 않을까요? 9개의 분류된 집단이 합쳐져서 1개의 검증세트에서 검증이 일어난다고 해도 똑같은 논리로 0이 나와야하지 않을까요? 프로세스에 대한 구체적인 조언 부탁드립니다 감사합니다!!:)
안녕하세요 랜덤서치 그리드 탐색에 대해 질문이 있습니다 입력이 균등 분포로 하면 일정한 확률로 변수를 추출 하는 것이고.. 지수 함수이면 변수 추출할 때 편향을 주는 것 같다고 생각 했습니다.. ...이렇게 편향되게 변수를 추출하는 건 왜 하는건가요? 가우시안으로 추출 해도 될 것 같은데... 그리고 확률 분포로 그리드를 만들면 중복된 변수 추출도 허용 되는건가요??
해선님. 이책의 어느부분까지해봐야 캐글에 도전하기 적합한걸까요? 아직 모델들에 대한 이해가 부족해서요. 그거랑 117페이지의 평가점수 확인에서 저는 max_feature: 6 n_estimators:30 일때의 값이 약49837로 가장 낮게 나옵니다. 문제가 없는 것인지요.
제가 캐글을 잘하지 못해서 말씀드리기 어렵지만 언제든지 시도하면 되지 않을까요? 캐글을 도전의 대상으로 보기 보단 문제를 풀고 다른 분들의 커널을 살펴 보면서 실력을 키울 수 있는 곳으로 생각하시면 더 좋을 것 같습니다! 캐글을 하고 싶다면 페북의 캐글 코리아 그룹에 가입해 보세요. 그리드 서치의 결과는 실행 환경이나 의사 난수에 따라 달라질 수 있습니다. :-D
안녕하세요 강의를 진짜 여러번 정독 하면서 이해를 하고자 하고 있습니다. 다만, 강의 중 궁금한게 있어서 이렇게 댓글 남깁니다.
1. 최상의 모델과 오차분석
- 최상의 모델을 나열하여 median_income을 제일 좋은 특성으로 찾았습니다. 근데 여기서 왜 오차 분석으로 되는지 궁금합니다.
2. 테스트 세트로 시스템 평가하기
- 여기선 최종 모델로 mean_squared_Error로 rmse값을 산출했습니다. 가격은 47873.xxxx 인데요
그 다음 95% 신뢰 구간을 설정하여 +- 를 주셨습니다.
- 그렇다면 이게 실제 타겟값의 무슨 뜻을 의미하는건가여 ?? 이게 주제가 집값 예측 문제인데요 저 rmse 값이 무엇을 의미하는지 도통 이해가 가지 않습니다 ㅠ 결론적으로 47873 값이 집값 예측 가격인데 어떤 관계로 저 값이 나와서 설명을 해야하는건가여 ?
3. 모델
- 위에서 보면 여러가지 모델을 이용하여 진행하셨습니다. 제가 공부한 이론으로는 여러가지 모델을 선택하여 훈련함으로써 최적의 모델을 찾는거라고 이해하고 있는데, 테스트 세트에서는 mean_squared_Error만 사용하셨습니다 혹시 그 이유가 있는건가여 ?
해선님 질문드립니다.16분경 교차검증(트리모델)수행에 대해 질문드립니다. 결정트리의 경우 교차검증코드 이전에 훈련세트를 한번에 학습시키는 과정에서 0이라는 과대적합의 결과가 나왔습니다. 이게 왜 교차검증을 통한다고 약70000달러에 해당하는 오차가 발생하는지 이해가 되지 않습니다. 테스트세트는 그대로 두고 훈련세트를 10부분으로 나누어 첫번째로 9구간의 훈련세트를 트리모델로 훈련시키고 검증세트에서 검증했을때 왜 이전과 같이 0의 결과가 나오지 않는건가요? 딱히 달라지는 점이 없다고 생각이 드는데, 제가 이해를 조금 잘못하고 있는걸까요?
처음 결정트리를 이용할때 결과가 0으로 나오는 이유는 대강 이해가 갑니다. 훈련세트에 과도하게 적합된, 즉 가지치기가 처음엔 합리적이었다가 거의 최종가지치기에서는 다른 데이터집단은 수용하지 못할 논리로 분류가 되는? 그런 이유때문에 트리모델에서 오차가 0으로 나왔다고 생각이 듭니다. 이 논리를 정확하게 교차검증에 적용해도 교차검증마다 모든 점수가 0으로 떠야하지 않을까요? 9개의 분류된 집단이 합쳐져서 1개의 검증세트에서 검증이 일어난다고 해도 똑같은 논리로 0이 나와야하지 않을까요? 프로세스에 대한 구체적인 조언 부탁드립니다 감사합니다!!:)
교차검증의 진행이 세부적으로 이해가 안되는 부분이, 결국 훈련세트집단, 검증세트, 테스트세트 이렇게 세개로 나뉘게 될때 cv가 10번이면 훈련세트가 검증세트에 의존하여 학습후 테스트세트에서 최종테스트된게 한번의 최종학습으로 총 10번을 진행하는것이 맞나요?
안녕하세요. 결정 트리는 제약이 없으면 모든 샘플을 완벽하게 예측하도록 훈련됩니다. 그래서 모델을 훈련한 데이터로 예측을 하면 오차가 0이 됩니다. 교차 검증의 경우 9개 폴드로 모델을 훈련하고 나머지 한 개 폴드에 대한 오차를 누적하여 반환합니다. 감사합니다.
안녕하세요
랜덤서치 그리드 탐색에 대해 질문이 있습니다
입력이 균등 분포로 하면 일정한 확률로 변수를 추출 하는 것이고..
지수 함수이면 변수 추출할 때 편향을 주는 것 같다고 생각 했습니다..
...이렇게 편향되게 변수를 추출하는 건 왜 하는건가요?
가우시안으로 추출 해도 될 것 같은데...
그리고 확률 분포로 그리드를 만들면 중복된 변수 추출도 허용 되는건가요??
안녕하세요. 랜덤 탐색을 할 때 어떤 확률 분포를 사용할지는 선택사항입니다. 중복 가능성은 랜덤 서치에 전달할 확률 분포 객체에 따라 결정됩니다. 감사합니다.
해선님. 이책의 어느부분까지해봐야 캐글에 도전하기 적합한걸까요? 아직 모델들에 대한 이해가 부족해서요.
그거랑 117페이지의 평가점수 확인에서 저는 max_feature: 6 n_estimators:30 일때의 값이 약49837로 가장 낮게 나옵니다. 문제가 없는 것인지요.
제가 캐글을 잘하지 못해서 말씀드리기 어렵지만 언제든지 시도하면 되지 않을까요? 캐글을 도전의 대상으로 보기 보단 문제를 풀고 다른 분들의 커널을 살펴 보면서 실력을 키울 수 있는 곳으로 생각하시면 더 좋을 것 같습니다! 캐글을 하고 싶다면 페북의 캐글 코리아 그룹에 가입해 보세요. 그리드 서치의 결과는 실행 환경이나 의사 난수에 따라 달라질 수 있습니다. :-D