[이것이 데이터 분석이다 with 파이썬_11] 시계열 예측 분석

Поделиться
HTML-код
  • Опубликовано: 11 ноя 2024

Комментарии • 21

  • @HarryLee-p5h
    @HarryLee-p5h 11 месяцев назад

    안녕하세요 강사님, 좋은 강의 감사합니다.
    시계열 분석 관련해서 전체 데이터셋에서 80%를 훈련 데이터셋으로 설정한 뒤, ARIMA 혹은 PROPHET 모델을 적용하고 이후에 나머지 20%에 해당하는 기간의 예측값과 실제 20%의 값을 비교하여 R2 스코어로 모델을 평가하는 방법은 적절하지 않을까요??

  • @대박이아빠-e4q
    @대박이아빠-e4q 4 года назад +2

    안녕하세요 강사님 ^^
    제가 백화점 방문 고객을 분석해 방문할 매장을 예측을 하는
    프로그램을 만들어보려고 하는데요
    예를 들면 한고객이 백화점에 방문해서
    2020-03-01 : A, B, C 매장 순서로 구매
    2020-03-05 : D, A 매장 순서로 구매
    2020-03-11 : E, F, B 매장 순서로 구매
    2020-03-15 : Z, Y, U 매장 순서로 구매
    2020-03-22 : S, P, A 매장 순서로 구매
    .
    .
    .
    이런식의 데이터가 100건이 누적되어 있다면,
    1) 특정 패턴을 찾고 싶거든요, 업종을 분류해서 어떤 매장을 들린후 어떤매장에 들리더라. 예)옷을 구매 후 커피숍에 들린다, 식당에 식사 후 옷을 구매한다. 등등(연관성)
    2) 이 고객이 다시 백화점에 방문했을때 재방문할 가능성이 높은 매장을 예측하려고 하거든요.
    - 패턴별, 요일별, 시간별로 오늘 일자를 기준으로 재방문 가능성이 높은 매장 리스트.
    두 기능을
    어떻게 하면 구현 가능할까요?

    • @윤기태-h4q
      @윤기태-h4q 4 года назад

      안녕하세요, 간략하게만 답변드리겠습니다.
      1) 매장 순서로 구매한 데이터가 있다면, Association Rule 이라는 분석 방법으로 을 찾아낼 수 있습니다. 책에서 2장의 두번째 예제를 참고하시면 될 것 같습니다.
      2) 이 경우도 '예측' 이라는 문제로 정의한다면, 책에서 5장의 두번째 예제 혹은 3장의 첫번째 예제와 거의 유사한 상황입니다. 이 예제들을 참고하시면 좋을 것 같습니다. 다만 예제들의 경우 간단한 예측 수준이라, 실제 데이터로 추정했을 때 예측률이 낮을 가능성 매우 높습니다. 재방문 예측 분석은 분석의 난이도도 매우 높은 편입니다. 난이도와 상관 없이 재방문 예측 모델링을 하고 싶다면, '이전 방문'에 대한 정보들을 Session Feature로 하는 확률 모델링, 즉 P(재방문 | 이전상황) 모델링을 하는 것이 더 정확합니다.

    • @대박이아빠-e4q
      @대박이아빠-e4q 4 года назад +1

      와 기대 안했는데 답변을 주셨네요정말 감사합니다.우선 제가 찾아보고 진행해보면서 안되는게 생기면 추가로 질문드리겠습니다코로나 조심하시구요 진심으로 감사드립니다!! ^^

    • @김순영-k2q
      @김순영-k2q 3 года назад

      @@대박이아빠-e4q 안녕하세요. 혹시 데이터는 어디서 구하셨는지 알 수 있을까요? 저도 데이터 분석을 해보고 싶은데. 데이터 구하기가 쉽지않네요.

  • @jiminkim5188
    @jiminkim5188 4 года назад +1

    안녕하세요 강사님, 책과 영상 덕분에 재밌게 공부하고 있습니다. 감사 드리고요 :)
    다른건 아니고, 오류 하나를 해결하는 데 어려움이 있어 댓글 남깁니다.
    맥 터미널에서 Facebook Prophet 라이브러리를 정상적으로 설치했고,
    Prophet 임포트까지는 정상적으로 되었는데요. 그 다음에 아래 피처명 변경하는 부분에서 커널이 계속 죽는 아래와 같은 현상이 나타나고 있습니다.
    The kernel appears to have died. It will restart automatically.
    그래서 구글링을 부랴부랴 해서 아래 솔루션을 찾아서 다시 시도를 해도, 동일한 현상이 나타나는데요..
    pip install --upgrade plotly
    혹시 솔루션을 알 수 있을까요?

    • @윤기태-h4q
      @윤기태-h4q 4 года назад

      안녕하세요. 질문해주신 문제는 Prophet이나 코드의 문제는 아닌 것 같구요, 보통 메모리가 부족하거나 포트가 꼬여있을 때 발생하는 문제입니다. 다른 프로그램들이 많이 돌아가고 있으면 종료해 주시고, 아니면 컴퓨터를 재시작해보세요. 그래도 안 될 시, 가상환경을 새로 하나 다시 만드는 것을 권해드립니다.

  • @dreamstarworld4130
    @dreamstarworld4130 3 года назад +7

    소리가 너무 불규칙하고 잘 알아들을 수 없는 구간이 있습니다. 소리에 신경 써 주시면 감사하겠습니다.

    • @윤기태-h4q
      @윤기태-h4q 2 года назад +2

      영상 촬영 당시 개인 촬영에 미흡한 부분이 있어, 퀄리티가 낮아진 점 죄송합니다. 감안하고 들어주시면 감사하겠습니다 ㅠㅠ

  • @donanwanasiseo5439
    @donanwanasiseo5439 4 года назад +2

    좋아요

  • @learningai1715
    @learningai1715 4 года назад

    제작자님 fbprophet 라이브러리 설치 계속 오류가 나는데 이유를 모르겠습니다..

    • @윤기태-h4q
      @윤기태-h4q 4 года назад

      어떤 오류가 나시나요?

    • @learningai1715
      @learningai1715 4 года назад

      @@윤기태-h4q 라이브러리가 다운이안되요 계속 ㅠㅠ

    • @learningai1715
      @learningai1715 4 года назад

      @@윤기태-h4q 글보시면 부탁좀드리겟슴다~

    • @윤기태-h4q
      @윤기태-h4q 4 года назад

      @@learningai1715 어떻게 다운로드가 안되는지 알려주셔야 도움을 드릴 수 있을 것 같네요 ㅠ

    • @learningai1715
      @learningai1715 4 года назад

      @@윤기태-h4q 네엡 제가파이참을쓰는데 모듈다운이 안되고 아나콘다같은겨우는 분명다다운했는데 커널이 죽어요..

  • @xikest
    @xikest 4 года назад

    책 p. 168에
    ARIMA 모델 코드 입니다
    red_y = forecast_data[0].tolist()
    1). tolist() 삭제해도 결과가 같게 나오는데.. tolist()를 해주어야 하는건지 궁금 합니다. 그리고 forecast_data에서 가장 첫번째를 지정하는데 이 값의 의미가 뭐에요? forecast_data가 forecast_data[0], forecast_data[1], forecast_data[2]까지 3개가 불러지는데 forecast_data[0]이 왜 마지막 5일 예측치가 되는지 궁금 합니다
    test_y = bitcoin_test_df.y.values
    2). values를 삭제해도 결과가 같게 나옵니다.. values를 해줘야 하는건지 궁금 합니다..
    ......
    for lower_upper in forecast_data[2]:

    3)forecast_data[0]가 마지막 5일 예측 데이터라고 되어 있는데 왜 forecast_data[2] 데이터를 사용하는 건지 궁금 합니다.
    lower = lower_upper[0]
    upper = lower_upper[1]
    pred_y_lower.append(lower)
    pred_y_upper.append(upper)

    • @윤기태-h4q
      @윤기태-h4q 4 года назад

      안녕하세요 :) 결과가 같게 나오는 코드는 그냥 사용하셔도 될 것 같습니다. 굳이 똑같이 코딩하려고 하지 않으셔도 될 것 같아요.
      그리고 forecast_data[0]는 모델의 예측값을 뜻하구요, forecast_data[2]는 오차범위 값을 뜻합니다.