자전거 수요 예측[1/4] 캐글 머신러닝 탐색적 데이터 분석

Поделиться
HTML-код
  • Опубликовано: 24 сен 2024
  • 소스코드 : github.com/cor...
    캐글의 공개 된 커널을 참고하여 머신러닝 자전거 대여량 예측 탐색적 데이터 분석을 해보았습니다.
    다음 비디오에서는 피처엔지니어링을 해볼 예정입니다.
    Kaggle bike sharing demand
    👉 페이스북 : www. tod...
    👉 인스타그램 : / _todaycode
    * 아래 URL과 쿠폰코드로 할인금액으로 수강하실 수 있습니다.
    ----------------
    모든 유료 강의 쿠폰코드 👉 bit.ly/inflear...
    ----------------
    🌱 인프런 📈 증권 데이터 수집과 분석으로 신호와 소음 찾기 🔎 전체 보기 👉 bit.ly/inflearn... ( 쿠폰코드: 3083-a12fb4ddd2d4 )
    🌱 인프런 📊 공공데이터로 파이썬 데이터 분석 시작하기 💻 전체 보기 👉 bit.ly/inflear... (쿠폰코드 : 3084-4e27fa1575a4 )
    🌱 인프런 📝 단 두 장의 문서로 데이터 분석과 시각화 뽀개기⚡️ 전체 보기 👉 bit.ly/inflear... (쿠폰코드 : 3085-6040d593c7e9 )
    🌱 인프런 📚 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리 👉 bit.ly/inflear...

Комментарии • 51

  • @haneulkim4902
    @haneulkim4902 5 лет назад +5

    진짜 너무 알아듣기 쉽게 잘 가르쳐 주세요! 감사합니다.

    • @todaycode
      @todaycode  5 лет назад

      와! 최고의 칭찬입니다. 감사합니다 :)

  • @kotai2003
    @kotai2003 5 лет назад +4

    E learning 강의의 새로운 스타의 탄생. 좋은 강의 감사합니다.

  • @hyun5459
    @hyun5459 3 года назад +2

    항상 도움 많이 받습니다 너무 감사드려요...이건 진짜 재능 기부 입니다..ㅠ

  • @spike6854
    @spike6854 4 года назад +2

    와우 대박 강의네요 감사합니다.

  • @민재홍-r9s
    @민재홍-r9s 6 лет назад +2

    안녕하세요 영상 잘 보고 있습니다 ㅎㅎ 한가지 질문이 있어서요! 영상 마지막부분에 기계학습에서 종속변수는 normal 이어야한다고 하셨는데 통계적 모델링과 달리 기계학습의 회귀에서는 분포의 가정이 필요없지 않나요?!

  • @mamazon9878
    @mamazon9878 6 лет назад +3

    너무 양질의 영상 만들어주셔서 감사합니다.

  • @bestenglishtutor1
    @bestenglishtutor1 3 года назад +1

    알찬 영상 감사합니다..

  • @말의향기
    @말의향기 5 лет назад +2

    와 머신러닝하기전에 제가 가진 데이터로 해봤는데 데이터 속성이랑 시각화 보면서 데이터 파악하는데 되게 도움됐어용!

  • @bdslee72
    @bdslee72 Год назад

    잊지 않고 언제나 사용을 위해서 OneNote에 적어 놓았습니다.
    관심있는 분들에게도 많이 전파하겠습니다.
    감사하고, 늦었지만 열공하겠습니다.
    1년 사이에 distplot에서 hist plot으로 변경 가이드가 되었네요.
    sns.distplot(df['count'], ax = ax1)
    >> sns.histplot(df['count'], kde=True, ax = ax1)

    • @todaycode
      @todaycode  Год назад

      sns.displot 으로도 사용할 수 있습니다. dist에서 t를 빼주시면 되는데 이 그래프는 서브플롯을 지원해요! 감사합니다 :)

  • @예광김-c2o
    @예광김-c2o 3 года назад

    잘보겠습니다!

    • @todaycode
      @todaycode  3 года назад

      항상 시청해주셔서 감사합니다!

  • @드루이드-x2f
    @드루이드-x2f 2 года назад +1

    시간이 지나도 달달한 영상

  • @친구들고마워
    @친구들고마워 6 лет назад +1

    너무 잘봤습니다 감사합니다

  • @좋은날에만나요
    @좋은날에만나요 4 года назад

    오우쉣!!! 작성자님 젠장 믿고 있었다고!! 깃허브 코드 너무 달아 ~ 공부 열심히 하겠다능

  • @hl2lmm
    @hl2lmm 5 лет назад

    감사합니다. 수강 잘하고있습니다

  • @ryu.jungwoon
    @ryu.jungwoon 6 лет назад +3

    안녕하세요? 영상을 잘 보고있습니다. 감사합니다.
    각 영상의 description에 .ipny 파일 공유 가능할까요?
    가끔 안보이는 코드가 있어 연습하는데 막힐 때가 있습니다.
    감사합니다.

    • @todaycode
      @todaycode  6 лет назад +1

      안녕하세요. 제 영상의 소스코드는 모두 제 github에 공개되어 있습니다. 이 영상에 대한 소스코드는 github.com/corazzon/KaggleStruggle/blob/master/bike-sharing-demand/bike-sharing-demand-EDA.ipynb 여기에 있습니다.
      또, github.com/corazzon/KaggleStruggle/ 여기로 오시면 제가 캐글로 분투하고 있는 코드들도 함께 보실 수 있습니다. 감사합니다 ^^

  • @KyungBaePark
    @KyungBaePark 6 лет назад

    잘보고 있습니다 감사합니다~

  • @rootsky5551
    @rootsky5551 6 лет назад +1

    Thanks, It helps me a lot.

    • @todaycode
      @todaycode  6 лет назад

      Thank you for watching my video 🙂

  • @anghs0366
    @anghs0366 6 лет назад +1

    감사합니다.

  • @이토리-z4h
    @이토리-z4h 4 года назад

    16:12 에서 아웃라이어 제거 하는 코드가 다 보이지 않네요ㅠㅠ 혹시 코드 작성하신걸 보려면 어디서 볼수잇을까요? 강의 너무 재밌게 잘 봤습니다!

  • @영호전-g7v
    @영호전-g7v 4 года назад

    별건 아니지만 season은 엄밀히 따지면 봄,여름,가을,겨울이 아닌 123,456,789,101112월로 나눈 기준이네요.
    보시는 분들 참고하세요.
    holiday, workingday가 둘다 0인 것도 outlier로 볼 수 있나요?

  • @sunwooim1851
    @sunwooim1851 4 года назад

    감사합니다. heatmap에서 vmax=.8 은 어떤 것을 설정하는 건가요?
    그리고,
    trainWithoutOutliers = train[np.abs(train["count"] - train["count"].mean())

    • @todaycode
      @todaycode  4 года назад

      vmax와 vmin은 heatmap 의 색상의 범위를 조절해 주는 값입니다. 이 값에 따라 값이 적고 많고의 색의 농도가 달라지게 됩니다. 또 이상치를 구하는 것은 저도 캐글의 커널(노트북)을 따라한 것이라 제가 알고있는 방법과는 차이가 좀 있습니다. 이상치를 구할 때 보통 다음의 링크에 있는 공식을 사용합니다. medium.com/datadriveninvestor/finding-outliers-in-dataset-using-python-efc3fce6ce32

  • @pack9338
    @pack9338 5 лет назад +1

    오프라인 모임 추진은 안하시나여?? 분석영상이 너무 고퀄이에요😍

  • @withscene
    @withscene 6 лет назад

    16:52에 나오는 Probability Plot에 질문이 있습니다.
    1) 이 Probability Plot은 어떻게 해석해야하는 건가요?
    scipyt documentation보면 pp-plot과 qq-plot과 혼동하지 말라고 쓰여있는데, 어떤 차이가 있는지 알고싶습니다.
    혹은 pp-plot이나 qq-plot처럼 직선과 가깝게 점들이 가까이 있으면 정규분포 가정을 만족하는 건가요?
    2) X축에 있는 Theoretical qunatiles가 무엇인지 궁금합니다 -4, -3, -2... 이렇게 있는데 -4 분위수인가요? 이게 무슨뜻인가요?

  • @mwwdal8256
    @mwwdal8256 4 года назад

    마지막 부분에 오차범위를 3표준편차보다 작은값 이하로 아웃라이어를 설정해주신 이유가 있나요?

    • @todaycode
      @todaycode  4 года назад

      이상치를 구할 때 6시그마 밖의 값을 이상치로 계산하기도 합니다. 다음 링크의 그래프를 참고해 보세요. ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%ED%8E%B8%EC%B0%A8

  • @hyesung1698
    @hyesung1698 5 лет назад

    # trainWithoutOutliers
    trainWithoutOutliers = train[np.abs(train["count"] - train["count"].mean())

    • @todaycode
      @todaycode  5 лет назад

      1. feature의 value도 gaussian distribution이 되도록 변형해 주는 것도 도움이 될 수 있습니다.
      2. sns.barplot(data=train, x='year_month', y="count", ax=ax3) 이 부분은 import seaborn as sns 로 seaborn 이 제대로 import되었는지 확인해 보시면 좋을것 같습니다.
      1번 문제와 관련해서 아래의 슬라이드를 참고해 보시는 것을 추천합니다.
      지난해 파이콘에서 진행되었던 튜토리얼인데 캐글 노하우가 잘 정리되어 있습니다.
      www.slideshare.net/yeonminkim/pycon-korea-2018-kaggle-tutorialkaggle-break
      감사합니다.

    • @hyesung1698
      @hyesung1698 5 лет назад

      다른 그래프들은 모두 그려지는데 부분만 되지 않네요! ㅠ

    • @todaycode
      @todaycode  5 лет назад

      X 축에 들어가는 year_month 컬럼이 train 데이터에 있는지 확인이 필요할 거 같아요.

  • @종민김-l7q
    @종민김-l7q 5 лет назад

    안녕하세요 강사님! 혹시 영상보면서 공부하는 내용을 제 Git hub에 올려도 될까요?

    • @todaycode
      @todaycode  5 лет назад

      안녕하세요. 저도 코드에 여러 출처를 참고했고 코드에 표시했습니다. 제 코드에 있는 출처도 함께 밝혀주신다면 괜찮을거 같습니다.

    • @종민김-l7q
      @종민김-l7q 5 лет назад

      @@todaycode 네 감사합니다!

    • @종민김-l7q
      @종민김-l7q 5 лет назад +1

      아직 별건 없지만 제 깃헙에도 구경와 주세요! github.com/OppiHmiK

  • @lolid_santakori
    @lolid_santakori 4 года назад

    재밌지만 어렵네요ㅜㅜ 석사 나오셨나요??? 학사로도 이정도 가능한가요???

    • @장문석2
      @장문석2 4 года назад

      제 생각에는 영상 주제가 EDA 이므로 학사 1~2학년만 되어도 충분할 듯 싶습니다^^~

  • @hl2lmm
    @hl2lmm 5 лет назад

    데이터폴터 데이터는 다운받고싶습니다.

    • @todaycode
      @todaycode  5 лет назад

      github.com/corazzon/KaggleStruggle/tree/master/bike-sharing-demand/data 해당 github을 클론받으셔도 되고, 캐글 사이트에서 직접 다운로드 받으셔도 됩니다. 다운로드 위치입니다. www.kaggle.com/c/bike-sharing-demand/data

  • @제갈식
    @제갈식 4 года назад +1

    그래프 색상이 알록달록 이쁘기도 하군요~ 여성분 특유의 감성?

  • @hl2lmm
    @hl2lmm 5 лет назад

    관련사이트가 있나요

    • @todaycode
      @todaycode  5 лет назад

      관련사이트는 없지만 소스코드는 다음에서 보실 수 있습니다. github.com/corazzon/KaggleStruggle/blob/master/bike-sharing-demand/bike-sharing-demand-EDA.ipynb

  • @Rrs-5def
    @Rrs-5def 6 лет назад

    마지막에 0이 줄어드는건 로그 스케일로 낮춰서이고.. 여전히 아웃라이어 많아보이는데 그냥 대충한듯.

  • @꾸샤-t4j
    @꾸샤-t4j 5 лет назад

    영상 잘 봤습니다~