빅데이터 분석기사 실기 작업형2유형 기본단계 | 빅분기 실기 | 작업형2유형

Поделиться
HTML-код
  • Опубликовано: 12 ноя 2024

Комментарии • 58

  • @kangdarin
    @kangdarin  Год назад +2

    ★Label encoder 적용 시 X_test에는 fit_transform이 아닌 transform으로 적어주세요★

    • @dubrovnik6212
      @dubrovnik6212 Год назад

      수치형 스케일러 적용시에도 동일하게 X_test 에는 그냥 transform 하면 되는건가요? 이부분이 아직 헷갈려요..
      그리고 테스트로 fit_transform(X_test) 한거랑 transform만 한거랑 비교해봤는데 결과는 큰차이가 없더라구요

    • @dubrovnik6212
      @dubrovnik6212 Год назад

      알려주신 베이스라인 코드로 연습문제, 기출문제 풀어보면 roc_auc_score가 70점 초중반 나오는데 이정도면 40점 배점에 몇점정도 받을수 있을까요? 심화까지는 시간이 여의치 않을거 같아요..ㅠㅠ

    • @kangdarin
      @kangdarin  Год назад +1

      @@dubrovnik6212 네 scaler에도 test에는 transform해주시면 됩니다!! 데이터 로스를 최소화하기 위한 작업이라 결과값이 많이 다르진 않을수도 있습니다..!

    • @kangdarin
      @kangdarin  Год назад +1

      @@dubrovnik6212 정확한 채점 기준까지는 잘 몰라서요..ㅠㅠ 그래도 scaler랑 roc_auc_score내보신거면 기본단계보다는 더 하신 것 같은데 조금만 더 공부하시면 만점 가능하실거같아요..!!

    • @dubrovnik6212
      @dubrovnik6212 Год назад +1

      @@kangdarin 다린님 영상 아니었으면 포기했을거에요
      다린님꺼 이해하고 다른거 보니까 그제야 이해가 가더라구요
      다시한번 감사드립니다~^^

  • @태양달별물바람흙불
    @태양달별물바람흙불 Год назад +4

    대단하세요. 머가 먼지 하나도 모르다가. 이 영상 보고 아..하게 됩니다.
    어느 정도 공부 완료된 후 보면 더욱더 너무 좋은 설명이구나 하고 느낄듯합니다.
    너무 고맙습니다.

    • @kangdarin
      @kangdarin  Год назад +1

      도움이 되셨다니 다행이에요~ 시청해주셔서 감사합니다!!😀😀

    • @kangdarin
      @kangdarin  10 месяцев назад

      @@이재만-k6b 저는 개인적으로 mx keys 잘 사용중입니다😁😁

  • @emsRTU
    @emsRTU Год назад +4

    파이썬 기초만 쓸줄 아는 사실상 제로베이스에서 강다린님 영상 통해 빅분기 시험 1트만에 합격했습니다. 그것도 작업형2 만점 받았습니다!
    정말이지 막막하기 그지없는 준비과정에 한줄기 빛이었습니다.
    너무너무 감사합니다.

    • @kangdarin
      @kangdarin  Год назад

      도움이 되셨다니 정말 다행이에요!! 합격 축하드립니다~!!!

  • @SaltOfTheDesert
    @SaltOfTheDesert Год назад +4

    다음주 실기 시험이라. 강의 영상 찾던 중 보게 되었는데. 설명 너무 좋습니다. 감사합니다.
    웹개발 10년차인데도. 파이썬은 이번 빅분기 준비하면서 처음이라 회사 다니면서 1달 반 준비로는 쉽지 않네요.

    • @kangdarin
      @kangdarin  Год назад

      감사합니다. 시험 화이팅 하세요~!!

  • @치매-b9r
    @치매-b9r Год назад +4

    덕분에 붙엇어용 다린님 진짜 가서 밥이라도 사드리고싶은 심정 ㅠㅠ 살앙해여

    • @kangdarin
      @kangdarin  Год назад

      합격 축하드립니다~!! 감사합니다😄

  • @yonggunjung5579
    @yonggunjung5579 Год назад +4

    정말 감사합니다. 덕분에 빅분기 한번에 합격 했습니다.😁

    • @kangdarin
      @kangdarin  Год назад +1

      도움이 되셨다니 다행이에요!! 합격 축하드립니다~!!

  • @dubrovnik6212
    @dubrovnik6212 Год назад +4

    2유형 다린님껄로 baseline 코드 잡고 공부해야겠어요~
    빅분기 초심자에게 최고에요!
    감사합니다.

    • @kangdarin
      @kangdarin  Год назад +1

      감사합니다~! 시험 화이팅 하세요~!!

  • @changys9592
    @changys9592 Год назад +3

    군더더기 없이 깔끔하고 너무 좋네요. 시험 다가오면서 조급해져서 2유형 포기할까도 했는데 자신감이 생기네요 ^^

  • @donlee9777
    @donlee9777 4 месяца назад +1

    다린님 영상보고 연습했는데 오늘 가채점 발표에 2유형 40점 획득하며 합격했습니다 감사드려요!

    • @kangdarin
      @kangdarin  4 месяца назад

      축하드려요☺️☺️☺️감사합니다

  • @happyjamiehaha
    @happyjamiehaha 5 месяцев назад +1

    시험1주일전..선생님이 제 일타강사고, 은인입니다ㅠㅠㅠ이해가 너무 쏙쏙잘되네요

    • @kangdarin
      @kangdarin  4 месяца назад

      시청해주셔서 감사합니다😊

  • @아이제르2
    @아이제르2 Год назад +1

    감사합니다 영상 잘 봤습니다

  • @subak0105
    @subak0105 Год назад +4

    다린님 진짜 최고세요ㅠㅠ 너무 잘봤습니다..! 너무 하찮은 질문이긴한데... 혹시 랜덤포레스트만 외워가고 roc 곡선 이런건 패스해도 괜찮을까요..?!
    파이썬 처음인데 쉽지않네오ㅠ 좋은 영상 감사합니다!!

    • @kangdarin
      @kangdarin  Год назад +1

      감사합니다-!! roc_auc_score는 모델 성능평가를 위해 해본것이라서 성능평가를 통해 모델을 바꿀것이 아니라면 결과제출에는 영향을 주지 않기 때문에 패스하시고 기본단계만 해서 제출하시면 기본점수는 취득하실수 있습니다.!!ㅎㅎ

  • @Gangdalf-si9nt
    @Gangdalf-si9nt 4 месяца назад +1

    처음 시작할 때 지금 2유형 실기체험 시험환경에는 train, test 밖에 없는데 직접 X_test, X_train, Y_train 만들어주고 시작해야 하는건가요?

    • @kangdarin
      @kangdarin  4 месяца назад

      결과변수를 데이터에서 분리해서 만들고 시작하셔야 됩니다😊

  • @kiboman
    @kiboman Год назад +3

    감사합니다 :)

  • @drawing680
    @drawing680 Год назад +5

    21분 50초 쯤에요.
    그 문제에 (남자일 확률) 이면 predict_proba(x_test) 쓰면 된다고 하셨는데,,,,
    혹시 문제가 (여자일 확률) 이었으면 뭐라고 썼어야 하지요??

    • @kangdarin
      @kangdarin  Год назад +1

      확률 전체를 불러오는게 predict_proba 이고 그중에 남자일 확률을 불러오는게 인덱스 개념으로 [:,1]를 붙여주는거에요
      여자일 확률을 불러오려면 [:,0]이렇게 붙여주시면 됩니다!

    • @drawing680
      @drawing680 Год назад +1

      @@kangdarin 감사합니다, 동영상 잘 시청하고있습니다. 제일 이해 잘 가는것 같아요

    • @브라이언-o5c
      @브라이언-o5c Год назад +1

      남자일 확률이 [:,1] 여자일 확률이 [:,0] 으로 하면 된다고 하셨는데요. 왜 그렇게 되는지 잘 모르겠습니다. 남자가 [:,0]이 될수는 없나요?

    • @kangdarin
      @kangdarin  Год назад

      @@브라이언-o5c index개념에 대해서 영상을 다시 시청하시길 권장드리겠습니다~! 문제에 값이 여자가 0 남자가 1로 주어졌고 그에대한 확률값이 그 순서대로 나왔는데 그 확률값 나열 중 인덱스 뒷자리가 1인 값들을 불러오기 위해[:,1]을 붙이는것이므로 남자가 [:,0]이 될 순 없습니다

  • @서민혁-k1j
    @서민혁-k1j 5 месяцев назад

    라벨인코딩할때 x_train에서 fit하고 x_test에 똑같이 적용하려고 transform을 하였는데요 골프가 없다고 뜨는거보니 서로 유니크한 값이 다른것 같네요 이럴땐 어떡하죠??

  • @Chunsic-e2z
    @Chunsic-e2z 11 месяцев назад +1

    체험환경이 xtrain,ytrain이 아닌 하나의 Train 데이터와 test데이터만 주어진 경우로 바뀌었는데 계속 오류가 나서 댓글남겨봅니다...
    Y_train을 따로 만들기 위해서 Y_train = Train['성별'] 로 하고 영상 속 코드 그대로 실행해보는데 valueError:X has 8 features, but DecisionTreeClassifier is expecting 9 feature as input.이라는 메시지가 뜹니다..이 경우 ytrain에 문제가 있는걸까요..?

    • @kangdarin
      @kangdarin  11 месяцев назад

      성별을 train에서 아예 따로 떼서 y_train에 저장하기 위해 pop을 사용하셔야 될 것 같습니다. 저 오류가 무엇인지는 잘 모르겠습니다~!

  • @wwkkk7556
    @wwkkk7556 Год назад +2

    XGBClassifier 도 랜덤포레스트와 같은 방식으로 하면 되겠지요? / XGBClassifier 사용시 추가해야 할 사항이 있을까요? / 경고가 떠도 상관없을까요?

    • @kangdarin
      @kangdarin  Год назад

      네 같은 방식으로 하시면 됩니다. 다만 앞에서 라벨인코딩을 한경우 모델을 tree계열 모델을 사용해야 하므로 인코딩을 뭘쓰느냐에 따라 모델을 결정하시면 되겠습니다. Warning은 안뜨는게 제일 좋겠지만 저도 시험볼때 떴었는데, 문의 결과 경고가 떠도 결과값이 나온다면 상관없다고 답변을 받았었습니다. 좋은 시험결과 있길 바랍니다!! 화이팅🤗🤗

  • @yhd4286-b4c
    @yhd4286-b4c Год назад +1

    다린님 그렇다면 남자, 여자일 확률의 구분이 없고 그냥 성별을 예측하라 할때는
    model_pred2 = model.pred[:]
    이렇게 써주면 되는걸까요...??

    • @kangdarin
      @kangdarin  Год назад

      안녕하세요~! 확률을 구하는게 아니라 성별을 0이냐 1이냐 이렇게 예측하려면 predict_proba대신 predict를 쓰면 되고, predict로 예측되는 값은 한 컬럼으로 나오기 때문에 뒤에 인덱스를 표시해줄 필요가 없습니다!!

  • @고수지망생
    @고수지망생 Год назад +2

    문제에 나와있는 제출 예시(custid,gender = 3500,0.267 ... 등)과 다르게 나와도 괜찮나요? 저는 문제 예시에서 주어진 것과 반대로 예측하네요 ㅠㅠ

    • @kangdarin
      @kangdarin  Год назад

      형식은 예시와 동일해야하고 custid도 3500부터 시작되어야 합니다. gender는 예측값이기 때문에 다르게 나올 수 있습니다 반대로 예측한다는게 어떤건지 모르겠지만 형식이 맞고 모델 성능이 괜찮다면 그대로 제출하시면 됩니다~!

    • @고수지망생
      @고수지망생 Год назад +1

      저기 사진에 올라와있는 예측값을 정답으로 봐야하는지(3500은 0.267이니 여자의 값으로 예측해야 정답) 궁금합니다! ㅠㅠ

    • @kangdarin
      @kangdarin  Год назад

      아~ 여자로 하면 0.267이 나와서 헷갈리셨군요!! 0.267은 저 예시는 형식을 보여주기 위한 것일뿐 정답은 아니기때문에 문제에서 시키는대로 남자를 예측해서 제출하시면 됩니다!! 실제로 영상 제출단계에서 보시면 저도 남자로 예측했을때 0.74로 시작합니다ㅎㅎ

  • @drawing680
    @drawing680 Год назад +3

    자세한 강의 감사합니다 ㅎㅎ
    저는 [분류 : 랜덤포레스트랑, 의사결정나무 ]
    [회귀 : 랜덤포레스트랑, 의사결정나무] 외워가려고 하는데 문제 없을까요?
    의사결정나무는 느린지,,, 쓴다는 분 거의 못본거같은데,,,
    Q. 보통 수험생분들은 몇개 외워 가나요?
    Q. 문제중에 어떤 분석기법을 꼭 써라,,,,(랜덤포레스트를 꼭 써라,,,) 이런적도 있는지요..
    Q. 제일 빠른걸 하라고 하는데, 뭐 랜덤포레스트/KNN/의사결정나무 이런거 다 해보고 빠른걸 제출해야 하는건지
    그냥 랜덤포레스트 하나만 외워서 하고 제출해되되는건지도 궁금합니다.....
    질문이 너무 길어서 죄송합니다..ㅠ

    • @kangdarin
      @kangdarin  Год назад +1

      좋은 문의 감사합니다~!
      저는 2개만 외워가긴했어요 공부할 여건이 충분하시면 여러개 외워가서 가장 성능좋은 모델 쓰시는게 제일 좋긴합니다
      여태까지 어떤 분석기법을 써라라고 정해주는 문제는 안나왔었어요
      제일 빠른걸 하라기 보다 성능이 좋은걸 제출하는거고 전체 코드 돌아가는 속도가 1분 제한이 걸려있어서 그 안에만 돌아가면 제출가능합니다
      시험 화이팅 입니다~!

  • @dfe2847
    @dfe2847 Год назад +1

    혹시 마지막에 제출할 때, 지금은 바로
    pd.DataFrame()~~으로 제출하셨는데요,
    result = pd.DataFrame()~이런식으로 새로운 변수를 지정해주면 안되는건지요??

    • @kangdarin
      @kangdarin  Год назад +1

      csv파일을 생성 하는게 목적이라서 앞에 변수를 지정하셔도 안하셔도 csv파일은 생성될겁니다. 감사합니다~!

  • @이재만-k6b
    @이재만-k6b 11 месяцев назад +1

    혹시 키보드 어떤거 쓰시나요 ??

    • @kangdarin
      @kangdarin  11 месяцев назад

      영상 촬영할때는 한성 기본키보드 사용했는데 키감 별로여서 비추천이에요🥹🥹

  • @jangwonlee9062
    @jangwonlee9062 Год назад +3

    분리한 데이터로 모델 성능평가한 모델을
    테스트셋에 적용해야하는거 아닌가요?
    제출한 모델은 트레인셋을 다 적용시킨 모델이고, 평가한 모델은 트레인셋을 분리한 모델이네요

    • @kangdarin
      @kangdarin  Год назад +2

      안녕하세요~
      데이터를 분리한 것은 모델에 대해 최적의 하이퍼파라미터를 찾기 위해 임시로 한 것이고,
      제출용 모델을 학습할 때는 트레인 데이터의 개수가 많을수록 좋기 때문에, 위 과정에서 찾은 최적의 하이퍼파라미터를 적용한 모델에 fit 시키는 것은 분리전의 전체 트레인 데이터를 가지고 했습니다.
      물론 @Jangwon Lee 님의 말대로 분리한 데이터로 하셔도 되지만 그럴 경우 최종 성능이 전체 트레인 데이터를 활용했을 때보다 좋지 않을 가능성이 큽니다..!
      좋은 문의 감사드립니다~!!