2장 머신러닝 프로젝트 처음부터 끝까지 (3)

Поделиться
HTML-код
  • Опубликовано: 4 фев 2025

Комментарии • 9

  • @이민수-g9n
    @이민수-g9n Год назад

    안녕하세요 강의를 진짜 여러번 정독 하면서 이해를 하고자 하고 있습니다. 다만, 강의 중 궁금한게 있어서 이렇게 댓글 남깁니다.
    1. 최상의 모델과 오차분석
    - 최상의 모델을 나열하여 median_income을 제일 좋은 특성으로 찾았습니다. 근데 여기서 왜 오차 분석으로 되는지 궁금합니다.
    2. 테스트 세트로 시스템 평가하기
    - 여기선 최종 모델로 mean_squared_Error로 rmse값을 산출했습니다. 가격은 47873.xxxx 인데요
    그 다음 95% 신뢰 구간을 설정하여 +- 를 주셨습니다.
    - 그렇다면 이게 실제 타겟값의 무슨 뜻을 의미하는건가여 ?? 이게 주제가 집값 예측 문제인데요 저 rmse 값이 무엇을 의미하는지 도통 이해가 가지 않습니다 ㅠ 결론적으로 47873 값이 집값 예측 가격인데 어떤 관계로 저 값이 나와서 설명을 해야하는건가여 ?
    3. 모델
    - 위에서 보면 여러가지 모델을 이용하여 진행하셨습니다. 제가 공부한 이론으로는 여러가지 모델을 선택하여 훈련함으로써 최적의 모델을 찾는거라고 이해하고 있는데, 테스트 세트에서는 mean_squared_Error만 사용하셨습니다 혹시 그 이유가 있는건가여 ?

  • @kasperdolbergeu
    @kasperdolbergeu 2 года назад

    해선님 질문드립니다.16분경 교차검증(트리모델)수행에 대해 질문드립니다. 결정트리의 경우 교차검증코드 이전에 훈련세트를 한번에 학습시키는 과정에서 0이라는 과대적합의 결과가 나왔습니다. 이게 왜 교차검증을 통한다고 약70000달러에 해당하는 오차가 발생하는지 이해가 되지 않습니다. 테스트세트는 그대로 두고 훈련세트를 10부분으로 나누어 첫번째로 9구간의 훈련세트를 트리모델로 훈련시키고 검증세트에서 검증했을때 왜 이전과 같이 0의 결과가 나오지 않는건가요? 딱히 달라지는 점이 없다고 생각이 드는데, 제가 이해를 조금 잘못하고 있는걸까요?

    • @kasperdolbergeu
      @kasperdolbergeu 2 года назад

      처음 결정트리를 이용할때 결과가 0으로 나오는 이유는 대강 이해가 갑니다. 훈련세트에 과도하게 적합된, 즉 가지치기가 처음엔 합리적이었다가 거의 최종가지치기에서는 다른 데이터집단은 수용하지 못할 논리로 분류가 되는? 그런 이유때문에 트리모델에서 오차가 0으로 나왔다고 생각이 듭니다. 이 논리를 정확하게 교차검증에 적용해도 교차검증마다 모든 점수가 0으로 떠야하지 않을까요? 9개의 분류된 집단이 합쳐져서 1개의 검증세트에서 검증이 일어난다고 해도 똑같은 논리로 0이 나와야하지 않을까요? 프로세스에 대한 구체적인 조언 부탁드립니다 감사합니다!!:)

    • @kasperdolbergeu
      @kasperdolbergeu 2 года назад

      교차검증의 진행이 세부적으로 이해가 안되는 부분이, 결국 훈련세트집단, 검증세트, 테스트세트 이렇게 세개로 나뉘게 될때 cv가 10번이면 훈련세트가 검증세트에 의존하여 학습후 테스트세트에서 최종테스트된게 한번의 최종학습으로 총 10번을 진행하는것이 맞나요?

    • @haesun_park
      @haesun_park  2 года назад

      안녕하세요. 결정 트리는 제약이 없으면 모든 샘플을 완벽하게 예측하도록 훈련됩니다. 그래서 모델을 훈련한 데이터로 예측을 하면 오차가 0이 됩니다. 교차 검증의 경우 9개 폴드로 모델을 훈련하고 나머지 한 개 폴드에 대한 오차를 누적하여 반환합니다. 감사합니다.

  • @readflw
    @readflw 3 года назад

    안녕하세요
    랜덤서치 그리드 탐색에 대해 질문이 있습니다
    입력이 균등 분포로 하면 일정한 확률로 변수를 추출 하는 것이고..
    지수 함수이면 변수 추출할 때 편향을 주는 것 같다고 생각 했습니다..
    ...이렇게 편향되게 변수를 추출하는 건 왜 하는건가요?
    가우시안으로 추출 해도 될 것 같은데...
    그리고 확률 분포로 그리드를 만들면 중복된 변수 추출도 허용 되는건가요??

    • @haesun_park
      @haesun_park  3 года назад

      안녕하세요. 랜덤 탐색을 할 때 어떤 확률 분포를 사용할지는 선택사항입니다. 중복 가능성은 랜덤 서치에 전달할 확률 분포 객체에 따라 결정됩니다. 감사합니다.

  • @레서판다-g2c
    @레서판다-g2c 4 года назад +1

    해선님. 이책의 어느부분까지해봐야 캐글에 도전하기 적합한걸까요? 아직 모델들에 대한 이해가 부족해서요.
    그거랑 117페이지의 평가점수 확인에서 저는 max_feature: 6 n_estimators:30 일때의 값이 약49837로 가장 낮게 나옵니다. 문제가 없는 것인지요.

    • @haesun_park
      @haesun_park  4 года назад

      제가 캐글을 잘하지 못해서 말씀드리기 어렵지만 언제든지 시도하면 되지 않을까요? 캐글을 도전의 대상으로 보기 보단 문제를 풀고 다른 분들의 커널을 살펴 보면서 실력을 키울 수 있는 곳으로 생각하시면 더 좋을 것 같습니다! 캐글을 하고 싶다면 페북의 캐글 코리아 그룹에 가입해 보세요. 그리드 서치의 결과는 실행 환경이나 의사 난수에 따라 달라질 수 있습니다. :-D