@@haesun_park 아 죄송합니다 제가 질문을 헷갈렸는데요 input 데이터와 target 데이터에 대한 질문이었습니다..! train_input과 test_input은 반드시 2차원 배열이어야 한다는 것을 알겠는데요, train_target과 test_target도 그러한가요 아니면 상관이 없나요?
훈련 세트 준비에서 train_test_split함수를 사용하잖아요? 여기서 궁금한 점이 있습니다. 1. 특성이 하나이기 때문에 scale을 신경쓸 필요가 없는거죠? 2. train_test_split함수에서 stratify 속성을 안사용한 것은 회귀 문제에서 일정한 비율로 나눌 필요가 없어서 인가요? 만약 2번째 질문에서 일정한 비율로 나눌 필요가 없다면 왜 그런건가요?
질문이 있습니다! train_input=train_input.reshape(-1,1) test_input=test_input.shape(-1,1) 이 코드에서 2차원배열인데 열 1개로 지정하는 이유가 뭔가요? 또 train_input은 length 와 weight가 있어서 [ a,b ] 형태일텐데 열 한개로 변형할 수가 있나요? 예를 들어 train_input=train_input.reshape(-1,1)을 실행했을때 train_input=[ [a,b],[c,d],[e,f] ]를 [[a],[b],[c],[d],[e],[f]] 이런형태로 변형되는거 아닌가요? 이러면 길이하고 몸무게를 차이점을 구분할 수 없지 않나요?
지금도 답변 달아주실지 모르지만, 질문 남깁니다. K-최근접 이웃 회귀에서 train score와 test score의 차이가 Train < Test : 과소적합 Test < Train : 과대적합 이라고 말씀하셨습니다. 그리고, N의 크기가 작을 때에는 과대적합 N의 크기가 클 때에는 과소적합이라고 하셨습니다. 그런데, N=1일 때에는 Train Score < Test Score (과소) 이고, N=42 일때에는 (과대) Test Score < Train Score 입니다. 모순되는 것 같은데 설명 부탁드려도 될까요?
영상 잘보고 있습니다. 감사합니다! 질문이 있는데요, kneighborregressor 는 feature들의 데이터포인트 간의 거리를 기준으로 n개를 뽑아 평균을 내는것이라면, 이 회귀모델은 batch 학습만 가능하고, mini batch 나 online 학습은 불가능할것 같은데 맞을까요? 혹시 거대 데이터를 클러스터링 하고자 한다면 어떤 접근 방식이 더 연산속도를 빠르게 할 수 있을지 궁금합니다
안녕하세요. k-최근접 이웃은 회귀 혹은 분류 알고리즘입니다. 사이킷런에는 미니배치나 온라인 학습을 제공하지 않습니다. 이와 관련된 다른 기술이 있는지는 제가 잘 모르겠네요. 군집 알고리즘은 이와 다릅니다. 문제에 따라 가장 좋은 알고리즘은 다를 것 같습니다. 감사합니다.
stratify 매소드에 대해 이해가 잘 되지 않아 질문드립니다. stratify 매소드는 앞서 fish_data에 대응되는 fish_target가 fish_data와 한쌍으로 함께 묶인채로 셔플하기 위해 사용한다고 기억하고 있습니다. 이번 perch_length와 perch_weight에서 stratify를 뺀다는 것은 무슨 의미 인가요?
좌표나 수학의 벡터에서 말하는 차원과 넘파이에서 말하는 차원의 개념이 좀 다른것 같아 혼란스럽네요. 인공지능 학습시 차원=Rank=dimension 모두 동의어인가요? 100쪽 broadcasting의 질문입니다. 표준화공식으로 어레이에 있는 값들의 표준점수를 구하니, 뱃치(batch)실행이라고 생각했었습니다. 왜냐면 브로드캐스팅은 행렬의 사이즈가 다른것끼리 연산을 시도할때, 인위적으로 사이즈를 맞춰주는것으로 알고 있었거든요. 여기는 행렬사이즈 변동없어서요.
안녕하세요. 머신러닝에서 차원은 벡터의 차원으로도 쓰이고 다차원 배열의 축(디멘션)으로도 쓰입니다. 종종 배열의 축을 이야기 할 때 차원, 랭크, 디멘션을 같은 의미로 사용합죠. 브로드캐스팅은 첫 번째 배열의 크기에 맞추어 두 번째 배열을 주어진 계산에 적용하는 것입니다. 결과 배열의 크기는 첫 번째 배열과 동일하게 됩니다. 감사합니다.
6강 완료!재미있게 듣고 있습니다!
끝까지 화이팅입니다! :)
이 책 솔직히 괜찮음. 출판사 책이 전반적으로 좋습니다. 좋은 강의도 감사드립니다.
6강도 완료하였습니다.
잘 봤습니다.
좋은 강의 감사합니다.!!
댓글 남겨 주셔서 감사합니다! ㅎ
안녕하세요?
사이킷런에 사용할 훈련 세트는 반드시 2차원 배열이어야 한다고 하셨는데요, 혹시 테스트 세트도 2차원 배열이어야 하는 건가요, 아니면 테스트 세트는 상관이 없나요?
안녕하세요. 테스트 세트도 동일합니다. 감사합니다!
@@haesun_park 아 죄송합니다 제가 질문을 헷갈렸는데요 input 데이터와 target 데이터에 대한 질문이었습니다..!
train_input과 test_input은 반드시 2차원 배열이어야 한다는 것을 알겠는데요, train_target과 test_target도 그러한가요 아니면 상관이 없나요?
@@seo9ky-skku 네. 타깃 데이터는 1차원으로 전달해도 됩니다. 사이킷런이 자동으로 2차원으로 변경해서 처리하거든요. :)
재밌따~!!
좋은 강의 감사합니다. 초보자인데 쉽게 설명해주셔서 잘 배우고 있습니다.
128p 확인문제2를 따라해보니 3개의 그래프가 각각 나오지 않고, 한개의 그래프에 겹쳐져서 나옵니다. 어떻게 하면 될까요?
안녕하세요. 아마도 plt.show()가 빠졌거나 for 루프 안에 놓여 있지 않는 것 같습니다. :)
안녕하세요 영상을 보며 열심히 공부중입니다. 책없이 하는 중인데 perge_lengh 같은 경우는 영상을 찾아봐도 나오는 값이 없는 데 책에만 어떤 변수인지 책에서는 서술하고있나요?
안녕하세요. 박해선입니다. 네 책에 나와 있습니다. 영상은 책 내용 중 일부를 담고 있습니다. 가능하시면 책을 구매하시거나 도서관 등에서 빌려서 같이 보시는 것이 좋을 것 같습니다. 감사합니다!
훈련 세트 준비에서 train_test_split함수를 사용하잖아요? 여기서 궁금한 점이 있습니다.
1. 특성이 하나이기 때문에 scale을 신경쓸 필요가 없는거죠?
2. train_test_split함수에서 stratify 속성을 안사용한 것은 회귀 문제에서 일정한 비율로 나눌 필요가 없어서 인가요?
만약 2번째 질문에서 일정한 비율로 나눌 필요가 없다면 왜 그런건가요?
안녕하세요. 특성이 하나일 경우에는 스케일을 신경쓰지 않아도 됩니다. 회귀 문제의 타깃은 어떤 종류가 아니라 연속적인 실숫값이기 때문입니다. 감사합니다!
@@haesun_park 아~ stratify 속성은 타깃이 예를 들어 [0,1] 나눠진 분류 문제처럼 종류가 아니면 비율에 맞춰 나누지 못하겠네요?ㅎ
수강완료 감사합니다!
23.06.22
질문이 있습니다!
train_input=train_input.reshape(-1,1)
test_input=test_input.shape(-1,1)
이 코드에서 2차원배열인데 열 1개로 지정하는 이유가 뭔가요?
또 train_input은 length 와 weight가 있어서 [ a,b ] 형태일텐데 열 한개로 변형할 수가 있나요?
예를 들어 train_input=train_input.reshape(-1,1)을 실행했을때
train_input=[ [a,b],[c,d],[e,f] ]를 [[a],[b],[c],[d],[e],[f]] 이런형태로 변형되는거 아닌가요?
이러면 길이하고 몸무게를 차이점을 구분할 수 없지 않나요?
안녕하세요. 이 예제의 특성은 한 개 입니다. 자세한 데이터 전처리 과정은 책을 참고해 주세요. 감사합니다.
진짜 ㅋㅋㅋ 감사합니다 ㅠㅜㅜㅜㅜㅜ돈없는 저도 보게 명강의를 보게 해주셔서
재미있게 보세요. :)
강의 감사 합니다. 근데 궁금한 점이 n_neighbors 의 값이 훈련을 시킬 때 연관을 미치나요? fit 한 후에 참조할 이웃 값들을 설정해도 스코어 값이 바뀌어서요
네 맞습니다. k 최근접 이웃 알고리즘은 단순해서 fit 메서드가 훈련 세트를 저장하는 것외에는 하는 일이 없죠. fit 메서드 호출 후에도 n_neighbors 속성을 바꾸면 predict, score 메서드의 결과가 달라집니다! :)
@@haesun_park 답글 감사합니다! 혼자 공부하는 열정을 더 높여 주시네요~
@@raphaelhyeok 사실 우리 모두 혼공족이죠. 화이팅입니다! ㅎ
지금도 답변 달아주실지 모르지만, 질문 남깁니다.
K-최근접 이웃 회귀에서 train score와 test score의 차이가
Train < Test : 과소적합
Test < Train : 과대적합
이라고 말씀하셨습니다.
그리고,
N의 크기가 작을 때에는 과대적합
N의 크기가 클 때에는 과소적합이라고 하셨습니다.
그런데, N=1일 때에는
Train Score < Test Score (과소)
이고,
N=42 일때에는 (과대)
Test Score < Train Score
입니다.
모순되는 것 같은데 설명 부탁드려도 될까요?
안녕하세요
영상 잘보고 있습니다. 감사합니다!
질문이 있는데요, kneighborregressor 는 feature들의 데이터포인트 간의 거리를 기준으로 n개를 뽑아 평균을 내는것이라면, 이 회귀모델은 batch 학습만 가능하고, mini batch 나 online 학습은 불가능할것 같은데 맞을까요? 혹시 거대 데이터를 클러스터링 하고자 한다면 어떤 접근 방식이 더 연산속도를 빠르게 할 수 있을지 궁금합니다
안녕하세요. k-최근접 이웃은 회귀 혹은 분류 알고리즘입니다. 사이킷런에는 미니배치나 온라인 학습을 제공하지 않습니다. 이와 관련된 다른 기술이 있는지는 제가 잘 모르겠네요. 군집 알고리즘은 이와 다릅니다. 문제에 따라 가장 좋은 알고리즘은 다를 것 같습니다. 감사합니다.
stratify 매소드에 대해 이해가 잘 되지 않아 질문드립니다. stratify 매소드는 앞서 fish_data에 대응되는 fish_target가 fish_data와 한쌍으로 함께 묶인채로 셔플하기 위해 사용한다고 기억하고 있습니다. 이번 perch_length와 perch_weight에서 stratify를 뺀다는 것은 무슨 의미 인가요?
안녕하세요. stratify 매개변수는 분류 문제에서 클래스 별로 데이터를 나누어 줍니다(93페이지 참조). 회귀 문제는 어떤 클래스를 예측하는 것이 아니므로 stratify 매개변수를 적용할 수가 없습니다. 감사합니다.
이전 장의 k 분류와 달리, 왜 k 회귀는 스케일링을 하지 않나요?
안녕하세요. 3장에서는 하나의 특성만 사용하기 때문입니다. 116페이지 설명을 참고하세요. 감사합니다.
좌표나 수학의 벡터에서 말하는 차원과 넘파이에서 말하는 차원의 개념이 좀 다른것 같아 혼란스럽네요. 인공지능 학습시 차원=Rank=dimension 모두 동의어인가요?
100쪽 broadcasting의 질문입니다. 표준화공식으로 어레이에 있는 값들의 표준점수를 구하니, 뱃치(batch)실행이라고 생각했었습니다. 왜냐면 브로드캐스팅은 행렬의 사이즈가 다른것끼리 연산을 시도할때, 인위적으로 사이즈를 맞춰주는것으로 알고 있었거든요. 여기는 행렬사이즈 변동없어서요.
안녕하세요. 머신러닝에서 차원은 벡터의 차원으로도 쓰이고 다차원 배열의 축(디멘션)으로도 쓰입니다. 종종 배열의 축을 이야기 할 때 차원, 랭크, 디멘션을 같은 의미로 사용합죠. 브로드캐스팅은 첫 번째 배열의 크기에 맞추어 두 번째 배열을 주어진 계산에 적용하는 것입니다. 결과 배열의 크기는 첫 번째 배열과 동일하게 됩니다. 감사합니다.
@@haesun_park 감사합니다. 제가 요즘 선생님때문에 인공지능 공부하는 재미에 빠졌습니다. 제일 힘든데 물어볼곳이 없었거든요. 선생님이 항상 즉시 질문에 답변 주시니까 기운이 납니다. 감사합니다.^^