[혼자 공부하는 머신러닝+딥러닝] 6강. 회귀 문제를 이해하고 k-최근접 이웃 알고리즘으로 풀어 보기

Поделиться
HTML-код
  • Опубликовано: 11 ноя 2024

Комментарии • 36

  • @darrenk2770
    @darrenk2770 2 года назад +9

    이 책 솔직히 괜찮음. 출판사 책이 전반적으로 좋습니다. 좋은 강의도 감사드립니다.

  • @donginparkjinman
    @donginparkjinman 3 года назад +3

    6강도 완료하였습니다.
    잘 봤습니다.

  • @dlrlaud_0128
    @dlrlaud_0128 2 года назад +1

    좋은 강의 감사합니다.!!

    • @haesun_park
      @haesun_park 2 года назад

      댓글 남겨 주셔서 감사합니다! ㅎ

  • @배배-k2k
    @배배-k2k 3 года назад +1

    재밌따~!!

  • @PresiDL
    @PresiDL 2 года назад +7

    진짜 ㅋㅋㅋ 감사합니다 ㅠㅜㅜㅜㅜㅜ돈없는 저도 보게 명강의를 보게 해주셔서

    • @haesun_park
      @haesun_park 2 года назад +1

      재미있게 보세요. :)

  • @wugumi
    @wugumi 9 месяцев назад

    질문이 있습니다!
    train_input=train_input.reshape(-1,1)
    test_input=test_input.shape(-1,1)
    이 코드에서 2차원배열인데 열 1개로 지정하는 이유가 뭔가요?
    또 train_input은 length 와 weight가 있어서 [ a,b ] 형태일텐데 열 한개로 변형할 수가 있나요?
    예를 들어 train_input=train_input.reshape(-1,1)을 실행했을때
    train_input=[ [a,b],[c,d],[e,f] ]를 [[a],[b],[c],[d],[e],[f]] 이런형태로 변형되는거 아닌가요?
    이러면 길이하고 몸무게를 차이점을 구분할 수 없지 않나요?

    • @haesun_park
      @haesun_park 9 месяцев назад

      안녕하세요. 이 예제의 특성은 한 개 입니다. 자세한 데이터 전처리 과정은 책을 참고해 주세요. 감사합니다.

  • @jwu0408
    @jwu0408 2 года назад +1

    안녕하세요 영상을 보며 열심히 공부중입니다. 책없이 하는 중인데 perge_lengh 같은 경우는 영상을 찾아봐도 나오는 값이 없는 데 책에만 어떤 변수인지 책에서는 서술하고있나요?

    • @haesun_park
      @haesun_park 2 года назад

      안녕하세요. 박해선입니다. 네 책에 나와 있습니다. 영상은 책 내용 중 일부를 담고 있습니다. 가능하시면 책을 구매하시거나 도서관 등에서 빌려서 같이 보시는 것이 좋을 것 같습니다. 감사합니다!

  • @seo9ky-skku
    @seo9ky-skku 4 месяца назад

    안녕하세요?
    사이킷런에 사용할 훈련 세트는 반드시 2차원 배열이어야 한다고 하셨는데요, 혹시 테스트 세트도 2차원 배열이어야 하는 건가요, 아니면 테스트 세트는 상관이 없나요?

    • @haesun_park
      @haesun_park 4 месяца назад

      안녕하세요. 테스트 세트도 동일합니다. 감사합니다!

    • @seo9ky-skku
      @seo9ky-skku 4 месяца назад

      @@haesun_park 아 죄송합니다 제가 질문을 헷갈렸는데요 input 데이터와 target 데이터에 대한 질문이었습니다..!
      train_input과 test_input은 반드시 2차원 배열이어야 한다는 것을 알겠는데요, train_target과 test_target도 그러한가요 아니면 상관이 없나요?

    • @haesun_park
      @haesun_park 4 месяца назад +1

      @@seo9ky-skku 네. 타깃 데이터는 1차원으로 전달해도 됩니다. 사이킷런이 자동으로 2차원으로 변경해서 처리하거든요. :)

  • @이진지뉴
    @이진지뉴 Год назад

    수강완료 감사합니다!
    23.06.22

  • @선형소수
    @선형소수 3 года назад

    영상 잘보고 있습니다. 감사합니다!
    질문이 있는데요, kneighborregressor 는 feature들의 데이터포인트 간의 거리를 기준으로 n개를 뽑아 평균을 내는것이라면, 이 회귀모델은 batch 학습만 가능하고, mini batch 나 online 학습은 불가능할것 같은데 맞을까요? 혹시 거대 데이터를 클러스터링 하고자 한다면 어떤 접근 방식이 더 연산속도를 빠르게 할 수 있을지 궁금합니다

    • @haesun_park
      @haesun_park 3 года назад +1

      안녕하세요. k-최근접 이웃은 회귀 혹은 분류 알고리즘입니다. 사이킷런에는 미니배치나 온라인 학습을 제공하지 않습니다. 이와 관련된 다른 기술이 있는지는 제가 잘 모르겠네요. 군집 알고리즘은 이와 다릅니다. 문제에 따라 가장 좋은 알고리즘은 다를 것 같습니다. 감사합니다.

  • @kr.j7191
    @kr.j7191 2 года назад +2

    좋은 강의 감사합니다. 초보자인데 쉽게 설명해주셔서 잘 배우고 있습니다.
    128p 확인문제2를 따라해보니 3개의 그래프가 각각 나오지 않고, 한개의 그래프에 겹쳐져서 나옵니다. 어떻게 하면 될까요?

    • @haesun_park
      @haesun_park 2 года назад

      안녕하세요. 아마도 plt.show()가 빠졌거나 for 루프 안에 놓여 있지 않는 것 같습니다. :)

  • @송민섭-s7j
    @송민섭-s7j Год назад

    훈련 세트 준비에서 train_test_split함수를 사용하잖아요? 여기서 궁금한 점이 있습니다.
    1. 특성이 하나이기 때문에 scale을 신경쓸 필요가 없는거죠?
    2. train_test_split함수에서 stratify 속성을 안사용한 것은 회귀 문제에서 일정한 비율로 나눌 필요가 없어서 인가요?
    만약 2번째 질문에서 일정한 비율로 나눌 필요가 없다면 왜 그런건가요?

    • @haesun_park
      @haesun_park Год назад +1

      안녕하세요. 특성이 하나일 경우에는 스케일을 신경쓰지 않아도 됩니다. 회귀 문제의 타깃은 어떤 종류가 아니라 연속적인 실숫값이기 때문입니다. 감사합니다!

    • @송민섭-s7j
      @송민섭-s7j Год назад +1

      ​@@haesun_park 아~ stratify 속성은 타깃이 예를 들어 [0,1] 나눠진 분류 문제처럼 종류가 아니면 비율에 맞춰 나누지 못하겠네요?ㅎ

  • @sanghyun1991
    @sanghyun1991 3 года назад

    지금도 답변 달아주실지 모르지만, 질문 남깁니다.
    K-최근접 이웃 회귀에서 train score와 test score의 차이가
    Train < Test : 과소적합
    Test < Train : 과대적합
    이라고 말씀하셨습니다.
    그리고,
    N의 크기가 작을 때에는 과대적합
    N의 크기가 클 때에는 과소적합이라고 하셨습니다.
    그런데, N=1일 때에는
    Train Score < Test Score (과소)
    이고,
    N=42 일때에는 (과대)
    Test Score < Train Score
    입니다.
    모순되는 것 같은데 설명 부탁드려도 될까요?

  • @raphaelhyeok
    @raphaelhyeok 3 года назад +1

    강의 감사 합니다. 근데 궁금한 점이 n_neighbors 의 값이 훈련을 시킬 때 연관을 미치나요? fit 한 후에 참조할 이웃 값들을 설정해도 스코어 값이 바뀌어서요

    • @haesun_park
      @haesun_park 3 года назад

      네 맞습니다. k 최근접 이웃 알고리즘은 단순해서 fit 메서드가 훈련 세트를 저장하는 것외에는 하는 일이 없죠. fit 메서드 호출 후에도 n_neighbors 속성을 바꾸면 predict, score 메서드의 결과가 달라집니다! :)

    • @raphaelhyeok
      @raphaelhyeok 3 года назад +1

      @@haesun_park 답글 감사합니다! 혼자 공부하는 열정을 더 높여 주시네요~

    • @haesun_park
      @haesun_park 3 года назад

      @@raphaelhyeok 사실 우리 모두 혼공족이죠. 화이팅입니다! ㅎ

  • @singgu-c1y
    @singgu-c1y 2 года назад

    안녕하세요

  • @araya2812
    @araya2812 3 года назад

    stratify 매소드에 대해 이해가 잘 되지 않아 질문드립니다. stratify 매소드는 앞서 fish_data에 대응되는 fish_target가 fish_data와 한쌍으로 함께 묶인채로 셔플하기 위해 사용한다고 기억하고 있습니다. 이번 perch_length와 perch_weight에서 stratify를 뺀다는 것은 무슨 의미 인가요?

    • @haesun_park
      @haesun_park 3 года назад +1

      안녕하세요. stratify 매개변수는 분류 문제에서 클래스 별로 데이터를 나누어 줍니다(93페이지 참조). 회귀 문제는 어떤 클래스를 예측하는 것이 아니므로 stratify 매개변수를 적용할 수가 없습니다. 감사합니다.

  • @음악과함께-c6r
    @음악과함께-c6r 3 года назад

    좌표나 수학의 벡터에서 말하는 차원과 넘파이에서 말하는 차원의 개념이 좀 다른것 같아 혼란스럽네요. 인공지능 학습시 차원=Rank=dimension 모두 동의어인가요?
    100쪽 broadcasting의 질문입니다. 표준화공식으로 어레이에 있는 값들의 표준점수를 구하니, 뱃치(batch)실행이라고 생각했었습니다. 왜냐면 브로드캐스팅은 행렬의 사이즈가 다른것끼리 연산을 시도할때, 인위적으로 사이즈를 맞춰주는것으로 알고 있었거든요. 여기는 행렬사이즈 변동없어서요.

    • @haesun_park
      @haesun_park 3 года назад

      안녕하세요. 머신러닝에서 차원은 벡터의 차원으로도 쓰이고 다차원 배열의 축(디멘션)으로도 쓰입니다. 종종 배열의 축을 이야기 할 때 차원, 랭크, 디멘션을 같은 의미로 사용합죠. 브로드캐스팅은 첫 번째 배열의 크기에 맞추어 두 번째 배열을 주어진 계산에 적용하는 것입니다. 결과 배열의 크기는 첫 번째 배열과 동일하게 됩니다. 감사합니다.

    • @음악과함께-c6r
      @음악과함께-c6r 3 года назад +1

      @@haesun_park 감사합니다. 제가 요즘 선생님때문에 인공지능 공부하는 재미에 빠졌습니다. 제일 힘든데 물어볼곳이 없었거든요. 선생님이 항상 즉시 질문에 답변 주시니까 기운이 납니다. 감사합니다.^^

  • @나상원-b9q
    @나상원-b9q 2 года назад

    이전 장의 k 분류와 달리, 왜 k 회귀는 스케일링을 하지 않나요?

    • @haesun_park
      @haesun_park 2 года назад +1

      안녕하세요. 3장에서는 하나의 특성만 사용하기 때문입니다. 116페이지 설명을 참고하세요. 감사합니다.