퇴근후 딴짓님 정말 감사 드립니다. 정말 가뭄속에 단비처럼 유튜브 강의 듣고 Big Data Certification KR에서 문제 다 풀고 해서 합격(재수) 했습니다. 풀이해주신 문제은행 없었으면 그냥 떨어졌을 것 같다는 생각을 했습니다. 정말 감사 드립니다. 이제 ADP 필기 준비해 보려고 합니다.
네 맞아요! 단답형(10문제)이 빠지고 작업형3(2문제)이 추가되었습니다. 통계 공부가 좀 더 필요하겠네요 그동안 빅분기 출제를 지켜봤을 때 작업형3의 경우, 6회 시험에 한해서는 예시문제 수준을 크게 벗어나진 않을 것이라 예상됩니다. 6회 시험 응시 전에 어떤 방식으로든 추가 콘텐츠를 붙일 예정입니다. 응원하겠습니다.💪💪💪
@@ai-study 감사합니다! 혹시 질문 하나 더 드려도 괜찮을까요? 작업형 1,2유형은 파이썬으로, 작업형 3유형은 r로 코딩 실행 후 4페이지에 답안을 입력하고 다시 파이썬으로 작업환경을 바꿔서 제출해도 괜찮을까요? 체험하기에 보니, 작업형3유형인 3페이지는 직접적인 코딩 제출이 아닌, 4페이지에서 직접 정답을 입력해야되더라구요! 그래서 위의 방식대로 해도 괜찮은지 궁금합니다!
질문이 있습니다.... 그동안 체험하기 예제 위주로 공부하였습니다.. 체험하기 작업형2에는 X_train, X_test, y_train 3개의 데이터가 주어지는걸로 되어 있던데.. 그동안의 기출에는 train과 test 2개의 데이터로 문제가 나오는 것을 보고 매우 당황하였습니다. 제가 반복 연습한 코딩은 처음 3개 데이터가 주어졌다는 전제하에.. X_train과 X_test 데이터에 대하여 아래와 같이 코딩을 하였습니다. 1. X_train, X_test, y_train의 데이터 불러오기 2. 결측치를 확인하여 처리 3. 라벨인코딩 4. 범주형 카테고리 더미화 변수 처리 5. 파생변수 생성 6. 스케일링 7. 여기서 train_test_split을 통해 X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train['gender'], test_size=0.2, random_state=42, stratify=y_train['gender]) 8. 모델학습 9. 모델평가 10. 파일제출 단순히 반복해서 이렇게 연습하였는데 7번의 y_train을 만드려면 1번에서 어떤 코드를 작성해야 할까요? 체험하기에는 y_tain 컬럼이 cust_id와 gender가 있는데 X_train에는 gender가 따로 없어서요.... gender가 포함된 train 데이터가 주어지고 쪼개는건지.... 체험하기를 예로 답변 주시면 많은 도움이 될 것 같습니다.. 감사합니다!
만약 체험하기의 X_train과 y_train 컬럼들이 gender 컬럼을 포함한 train 하나의 데이터로 합쳐져서 주어졌다고 한다면 y_tain = X_train.pop('gender')로 y_train을 정의해주면 될까요? 예제 y_train 데이터에는 cust_id와 gender 2개의 컬럼이 있긴하네요.... ---- 체험하기 코드 예시 ---- import pandas as pd X_test = pd.read_csv("data/X_test.csv") => 체험하기와 동일한 데이터셋 X_train = pd.read_csv("data/train.csv") => 체험하기 X_train 데이터셋에 gender 컬럼이 포함된 데이터셋이라고 가정 y_train = X_train.pop('gender') => cust_id와 gender 2개의 컬럼이 나와야 하는데....(?) 이렇게 train 데이터를 X_train과 y_train으로 분리한 후 연습한 코드 수행
안녕하세용! 시청 잘했습니다! 바쁘시겠지만 주변분들과 혼란이 많아서 전문가분께 여쭤봅니당!기본처리만 하고 랜덤포레스트리그레서로 풀고 답 잘 내면 30점정도는 받을 수 있는걸까용? 주변에 어떻게 어떻게 분류(랜포클래시파이어)로 답을 낸 분도 있긴하던데, 그 경우에는 점수가 잘 나올까요?
안녕하세요. rmse 평가는 못하고 제출은 잘 했는데 40점 나올 수 있나요? ㅠ 그리고 이 데이터 셋 어디서 다운 받을 수 있나요? 캐글 링크 걸어놓으신거에 없던데... 혼자 한번 연습 해보고 싶어서...근데 진짜 강사님 캐글에 있는것 만 다 연습하고 갔어도 만점 받았겠네요... 작업형 #2 T2-4가 딱 PRICE 예측에다가 RMSE 평가 방식이었네요 :) 출제자들이 강사님 캐글보고 출제하는 줄...
안녕하세요 비전공자인데 책 하나 보고도 이해가 안가서 이것 저것 보고 있는 와중에 이게 제일 설명이 좋아서 궁금한거 댓글 달아 봅니다 중간에 rmse 평가 안하면 감점 있나요?? 수치형 자료 스케일링 안해도 되나요? 그리고 4회 영상 보니까 상,중,하 단계로 있던데 하 단계인 배이직 단계로하면 만점 안나오는 건가요??
퇴근후 딴짓님 정말 감사 드립니다. 정말 가뭄속에 단비처럼 유튜브 강의 듣고 Big Data Certification KR에서 문제 다 풀고 해서 합격(재수) 했습니다. 풀이해주신 문제은행 없었으면 그냥 떨어졌을 것 같다는 생각을 했습니다. 정말 감사 드립니다. 이제 ADP 필기 준비해 보려고 합니다.
합격 축하드리며, 후기 감사합니다 💪
합격했습니다.
구매한 교재로는 도저히 답이 안나와서 자료 찾는도중 퇴근후딴짓 님의 캐글과 강의를 보고 이거다 싶어서
1주일동안 모든 문제 다 풀어보고 시험장 가니까 상당히 쉽게 합격할 수 있었습니다
정말 감사드립니다
후기 감사합니다 :) 합격 축하해요!!! 👍👍👍
get_dummies 함수를 train, test 따로 적용하는 이유가 있나요?
같은 분류라면 순서에 관계없이 같은 인코딩이 가능한 것인가요?
정말 감사합니다. 덕분에 빅분기 한번에 합격 했습니다.😁
오!! 축하합니다 :)
잘보고 있습니다. 덕분에 많은 도움이 된것 같아요!^^
궁금한게 있는데..
Rmse결과는 숫자가 낮을수록 좋은건가요? 에러값이니깐 낮은게 좋은거겠죠?^^;
넵 낮을수록 오차가 적은거니까 좋은거에요~!
실기 6회 부터 단답형 문제가 빠지고 가설검정 문제가 추가된다고 하는데, 혹시 별도의 영상을 기획하고 계신가요? 딴짓님 유료영상 결재하려고 하다가 실기가 개정 됐다고해서 머뭇거리고 있습니다ㅠㅠ 문의할곳이 없어서 여기에 남깁니다!
네 맞아요! 단답형(10문제)이 빠지고 작업형3(2문제)이 추가되었습니다. 통계 공부가 좀 더 필요하겠네요 그동안 빅분기 출제를 지켜봤을 때 작업형3의 경우, 6회 시험에 한해서는 예시문제 수준을 크게 벗어나진 않을 것이라 예상됩니다. 6회 시험 응시 전에 어떤 방식으로든 추가 콘텐츠를 붙일 예정입니다. 응원하겠습니다.💪💪💪
@@ai-study 감사합니다!
회귀나오면 regressor써야지하고 외웠는데 딱 나와서 기뻤다
오!!!!!!!! regressor
실기 처음부터 끝까지 큰 도움 받았습니다 아직 붙진 않았지만, ㅎㅎ 너무 감사해요!!
합격 댓길 기다리겠습니다
혹시 실기 5회 데이터셋 캐글에 올려주실 수 있을까요?? ㅠㅠ
방금 올렸습니다. 화이팅이에요 :) www.kaggle.com/datasets/agileteam/bigdatacertificationkr
@@ai-study 감사합니다! 혹시 질문 하나 더 드려도 괜찮을까요? 작업형 1,2유형은 파이썬으로, 작업형 3유형은 r로 코딩 실행 후 4페이지에 답안을 입력하고 다시 파이썬으로 작업환경을 바꿔서 제출해도 괜찮을까요? 체험하기에 보니, 작업형3유형인 3페이지는 직접적인 코딩 제출이 아닌, 4페이지에서 직접 정답을 입력해야되더라구요! 그래서 위의 방식대로 해도 괜찮은지 궁금합니다!
@@규민-s4f 둘다 할 줄 아시면 작업형3은 R이 간편한 것 같아요 :) R과 파이썬을 문제별로 선택해도 되는 것으로 알고 있어요!! 다만 이부분은 공식 홈페이지 QnA로 확인하는 것을 추천드립니다.
@@ai-study 감사합니다 안그래도 공식 홈페이지 QnA로 확인하고자 했는데 홈페이지가 다운된 것 같더라구요! 나중에 한 번 더 확인해보겠습니다!
안녕하세요 강의를 보니 더욱더 이해가 잘갑니다ㅜㅜ 혹시 마지막 test평가를 할때 y.csv는 어떤 데이터인지 알 수 있을까요 ?
test데이터는 시험에는 평가할 수 없는 데이터입니다 :)
퇴근후딴짓님! 혹시 캐글에 5회 실기 데이터 올려주셨을까요? 찾지못해서요 ㅠㅠ
늦었네요! 데이터 올렸습니다 :)
그리드서치 안해도 점수 받을 수 있을까요?
수치형 변수 스케일링 안해도 괜찮나요..?
작업형2는 평가기준을 공개하지 않고 있네요. 트리계열의 머신러닝 모델을 사용할 경우 스케일링 효과가 일반적으로 매우 작습니다.
감사합니다.!!
질문이 있습니다.... 그동안 체험하기 예제 위주로 공부하였습니다.. 체험하기 작업형2에는 X_train, X_test, y_train 3개의 데이터가 주어지는걸로 되어 있던데.. 그동안의 기출에는 train과 test 2개의 데이터로 문제가 나오는 것을 보고 매우 당황하였습니다.
제가 반복 연습한 코딩은 처음 3개 데이터가 주어졌다는 전제하에.. X_train과 X_test 데이터에 대하여 아래와 같이 코딩을 하였습니다.
1. X_train, X_test, y_train의 데이터 불러오기
2. 결측치를 확인하여 처리
3. 라벨인코딩
4. 범주형 카테고리 더미화 변수 처리
5. 파생변수 생성
6. 스케일링
7. 여기서 train_test_split을 통해 X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train['gender'], test_size=0.2, random_state=42, stratify=y_train['gender])
8. 모델학습
9. 모델평가
10. 파일제출
단순히 반복해서 이렇게 연습하였는데 7번의 y_train을 만드려면 1번에서 어떤 코드를 작성해야 할까요? 체험하기에는 y_tain 컬럼이 cust_id와 gender가 있는데 X_train에는 gender가 따로 없어서요.... gender가 포함된 train 데이터가 주어지고 쪼개는건지.... 체험하기를 예로 답변 주시면 많은 도움이 될 것 같습니다.. 감사합니다!
만약 체험하기의 X_train과 y_train 컬럼들이 gender 컬럼을 포함한 train 하나의 데이터로 합쳐져서 주어졌다고 한다면 y_tain = X_train.pop('gender')로 y_train을 정의해주면 될까요? 예제 y_train 데이터에는 cust_id와 gender 2개의 컬럼이 있긴하네요....
---- 체험하기 코드 예시 ----
import pandas as pd
X_test = pd.read_csv("data/X_test.csv") => 체험하기와 동일한 데이터셋
X_train = pd.read_csv("data/train.csv") => 체험하기 X_train 데이터셋에 gender 컬럼이 포함된 데이터셋이라고 가정
y_train = X_train.pop('gender') => cust_id와 gender 2개의 컬럼이 나와야 하는데....(?)
이렇게 train 데이터를 X_train과 y_train으로 분리한 후 연습한 코드 수행
train 과 test 두 개가 주어졌다고 당황하실 필요 없습니다
train 이 X_train과 y_train을 하나의 데이터프레임으로 합친거라 생각하시면 됩니다
train, test 두 개로 모델을 짜는 연습을 하셨다면 합쳐서 진행하시고 분리하시는게 편하시면 분리해서 하시면 되죵
@@새우가제일좋아 감사합니다.... 내일 시험인데 잘볼수 있을지 멘붕이에요 ㅠㅠ
저도 내일 시험이에요 ... 강의도 안듣고 책과 실습으로 독학 ㅠㅠ 예상문제대로 나왔으면 좋겠어요ㅠㅠ 시험 환경에서는 로그가 안나오니 넘 불안하네요 ㅠㅠ 오타, 자료형 착각 실수, 파라미터 빼먹음(?) 등등 실수하지않도록 꼼꼼히 체크하고 들어가야겠어요 화이팅!!!👍👍
대단하십니다 굿굿
감사합니다!
해설 감사합니다.
감사합니다 :)
안녕하세요 제 질문이 있어서요
from sklearn.model_selection import train_test_split
Xtr, Xval, ytr, yval = train_test_split(Xtrain, ytrain,
test_size = 0.3,
random_state = 6)
print(Xtr.shape, Xval.shape, ytr.shape, yval.shape)
이렇게 찍으니까
(5227, 37) (2241, 37) (5227, 1) (2241, 1)
ytr과 yval 컬럼이 하나씩 나오는데 뭐가 잚못 된걸까요??
알려주시면 감사하겠습니다.
y는 타겟변수라 원래 칼럼이 하나입니다.
@@김달팽-r4n 감사합니다 위에 풀이에는 비워져 있어서 문제 있는지 알았습니다
(5227, 37) (2241, 37) (5227, ) (2241, )로 나오는 것이 일반적입니다. ytrain이 시리즈형태가 아니라 데이터프레임형태일 때 작성자처럼 됩니다.
안녕하세용! 시청 잘했습니다! 바쁘시겠지만 주변분들과 혼란이 많아서 전문가분께 여쭤봅니당!기본처리만 하고 랜덤포레스트리그레서로 풀고 답 잘 내면 30점정도는 받을 수 있는걸까용?
주변에 어떻게 어떻게 분류(랜포클래시파이어)로 답을 낸 분도 있긴하던데, 그 경우에는 점수가 잘 나올까요?
전자는 제출형식 등 다른 감점 요인이 없다면 40점 예상하고요, 후자는 rmse로 평가했을 때 주최측에서 정한 기준에 따라 감점이 될 것 같아요! rmse기준은 공개하지 않아 정확히는 알 수 없지만 감점이 클 것 같아요!
친절하게 도움주셔서 감사합니다 ! 주변에 준비하는 분들께도 많은 홍보할게요!
안녕하세요. rmse 평가는 못하고 제출은 잘 했는데 40점 나올 수 있나요? ㅠ 그리고 이 데이터 셋 어디서 다운 받을 수 있나요? 캐글 링크 걸어놓으신거에 없던데... 혼자 한번 연습 해보고 싶어서...근데 진짜 강사님 캐글에 있는것 만 다 연습하고 갔어도 만점 받았겠네요... 작업형 #2 T2-4가 딱 PRICE 예측에다가 RMSE 평가 방식이었네요 :) 출제자들이 강사님 캐글보고 출제하는 줄...
네, 맞아요 rmse가 그대로 나왔더라고요! 반드시 split 또는 평가를 해야한다는 조건은 없었기에 큰 문제 없을 것으로 예상됩니다.
퇴근후딴짓님 빅분기 강의가 인프런, 클래스101에 모두 올라와 있던데 동일한 강의인가요? 다르다면 혹시 난이도의 차이가 있나요?
동일합니다. 인프런이 더 저렴하니 인프런을 이용해주세요:) 🙌
@@ai-study답변 감사합니다^^
Year, 엔진사이즈 등의 열이 수치형이지만 문제 내 범주라고 명시되어 있었는데요. 이것들을 라벨인코더로 처리했는데 잘못된 방법인가요?
정상적인 처리 방법 중에 하나 입니다 :)
영상 감사합니다:) 한번 더 풀어보고 싶은데 데이터는 어디서 다운받을 수 있나요?
비슷한 조건을 위해 다듬어야할 부분이 있어 검증 후 캐글에 올리도록 할게요!
분류로 했을때 결과가 나오긴 나와서 제출하긴했는데 부분점수라도 받을 수 있을까요?... ㅠㅠ
분류에 대한 점수는 어떻게 판단할지 이번을 케이스로 정해질 것 같아요!! 작업형2가 배점이 커서 감점이 아닐까 생각이 들어요!! 만약 0점처리 된다면 rmse기준으로 매우 오차가 컷을 것 같아요!
딴짓님 영상 볼땐 쉬워보이는데 막상 시험에서 풀다보니 막히는 부분이 많더라구요 ㅜㅜ 정수+범주 형태로 풀기는 했는데 train_test_split도 건너띄고, 모델 평가하기도 뻬먹었는데 평가 점수가 나올런지 걱정이네요....
고생하셨습니다. train_test_split은 검증을 위함이며, 지금까지 출제된 형태로는 생략해도 문제가 없을 것으로 예상됩니다.
@@ai-study 오늘 가채점 결과 나왔는데 만점 나왔어요 ^^ 너무 감사드려요~~ 딴짓님 강의덕분에 합격했습니다~~
만점이라니!! 너무 축하해요 🌹🌹🌹
@@ai-study 😂
문제만 보고 감이 안잡혔는데 상세한 설명 너무 감사드립니다ㅠㅠ!!
작업형2는 패턴이 있어 연습만하면 쉬워요!! 합격 응원합니다 :)
감사합니다!
네 :)
안녕하세요
비전공자인데 책 하나 보고도 이해가 안가서 이것 저것 보고 있는 와중에
이게 제일 설명이 좋아서 궁금한거 댓글 달아 봅니다
중간에 rmse 평가 안하면 감점 있나요??
수치형 자료 스케일링 안해도 되나요?
그리고 4회 영상 보니까 상,중,하 단계로 있던데 하 단계인 배이직 단계로하면 만점 안나오는 건가요??
1. 감점 없습니다. 작업형2는 csv로만 채점합니다. rmse 평가 수식이 사이킷런에서 제공하지 않아요. 어렵다면 mse로 해도 됩니다.
2. 트리계열 모델이면 영향이 크지 않습니다.
3. 평가 기준은 공개하지 않고 있어요. 제가 점수를 말하긴 어려울 것 같습니다.
@@ai-study 감사합니다 덕분에 많이 배우고 있습니다
안녕하세요, 5회기출은 운영해주시는 kaggle에 데이터링크 / 파이썬링크 파일이 없는것 같은데요! 본 강의 파일은 혹시 어디에서 확인할 수 있는걸까요?!
방금 올렸습니다. 화이팅이에요 :)
regressor로 풀었는데 rmse는 할줄몰라서 그냥 제출했네요 ㅠㅠ 많은 도움받았습니다!!
csv파일로 평가가 진행되기에 상관 없다고 판단됩니다.
알려주셔서 감사합니다! 결과를 기다려봐야겠네요 ㅠㅠ
어제 사전결과 나왔는데 안정적인 점수가 나왔습니다!!(88점) 정말 많은 도움받았습니다!! 감사합니다!!
고득점이네요 축하해요 ✨✨✨
ㅠㅠ초보자코드로 랜덤포레스트만 외워갔는데 계속 컴파일 오류나고 kill당해서 당황스러웠는데 알고보니 회귀로 풀어야되더라구요😢😢 다음엔 공부많이해서 가야겠네요!
아이코!!! 분류와 회귀는 알고 가셨으면 좋았을텐데 아쉽네요 !!! 다음까지 시간이 많이 남았으니 시험만 목적으로 한 것이 아니라면 파이썬 판다스 머신러닝을 학습해주세요!
앗 회귀 문제였군요 분류인줄 알았네요ㅠ
아이코 ㅠㅠ