안녕하세요, 와우패스입니다. QR코드의 연결링크의 오류가 있어 변경 진행 중입니다. 우선 아래 URL에서 강의 확인해주시고, 최대한 빠르게 복귀 조치 하겠습니다. [www.wowpass.com/Event/EV2207140002] 해당 URL에서 R 활용 강의 입과 받으실 수 있습니다. 혼련을 드려서 죄송합니다!
59:50 2과목 데이터 분석 기획 4장. 데이터 분석 기획의 이해 (48~89) 1:06:20 51 데이터 저장 방식 1:06:39 RDB 1:06:53 NOSQL 1:07:29 HDFS 특징 도구 1:08:30 52 기업의 합리적 의사결정 장애 요소 1:09:38 53 분석 방법론의 구성 요소 1:10:20 54 폭포수/나선형/프로토타입 모델 1:10:33 폭포수 1:11:10 나선형 1:11:50 프로토타입 1:12:42 55 KDD 분석 방법론 1:13:16 56 KDD 분석 절차 1:13:37 분석 대상의 이해와 프로젝트 목표 설정 1:13:58 데이터 셋 1:14:04 데이터 전처리 1:15:23 데이터 변환 ( 1:16:00차원 축소, 1:16:38 과대적합) 1:16:54 데이터 마이닝 1:17:14 데이터 마이닝 결과평가 1:18:40 57 CRISP-DM 분석 방법론 1:19:30 모형 설명 1:19:52 58 CRISP-DM 분석 절차 1:21:09 업무 이해 1:22:00 데이터 이해 1:22:32 데이터 준비 1:23:00 모델링 (과대적합) 1:24:35 평가 1:25:00 전개 1:25:19 기출 포인트 정리 1:26:44 59 계층적 프로세스 모델 3계층 구성 (단계, 테스크, ) 1:28:20 60 빅데이터 분석 방법론 (기,준,분,시,평) 1:29:50 1:30:25 61 분석 기획 planning : phase 해당 (sow, task) 1:31:20 회피, 전이, 완화 수용() 1:32:15 62 데이터 준비 (데이터 스토어) 1:33:00 63 데이터 분석 1:33:33 64 모델링 (과적합, 일반화, ) 1:34:43 알고리즘 설명서, 의사코드 수준 1:36:12 65 모델 평가 및 검증 1:36:25 66 시스템 구현 1:37:14 67 평가 및 전개 (지금까지 분석 방법론) 1:37:59 68 분석 과제 발굴 (하향식 접근방식, 상향식 접근방식, ) 1:39:00 69 디자인 씽킹 1:39:32 상향식(Diverse)과 하향식(Converse), 1:40:10 70 디자인 씽킹 프로세스 5단계 Empathize, Define, Idea, Prototype, Test 1:41:05 하향식 접급법 (Top-Down) 한계 1:42:45 72 문제탐색 업무, 제품, 고객, 규제와 감사, 지원 인프라 1:43:43 73 혁신의 관점(중장기관점) 분석기회 발굴확장 - 거시적 관점(STEEP) 사회, 기술, 경제, 환경, 정치* 1:44:15 대체재 파악, 경쟁자 파악, 신규진입자 파악*** 1:44:38 시장의 니즈 관점* 고객 개선 의견을 분석, 소비자를 향한 모든 채널 분석, 영향자들의 관심 파악 분석 1:44:50 역량의 재해석 관점 내부 역량, 파트너 역량 1:45:10 외부 참조 모델 기반 탐색** 분석 유즈 케이스 1:45:45 75 문제 정의 비즈니스 문제를 데이터 문제로 변환 1:46:20 76 해결 방안 탐색 1:46:50 77 타당성 검토 단계 *** 하향식 접근 방식 경제적, 데이터, 기술적 타당성 1:48:08 78 상향식 접근 방식 (Bottom Up Approach) 상향식 하향식 개념 구분 ** 데이터를 기반으로 무제의 재정의 1:48:45 비지도 학습(목표변수가 없음), 군집분석***, 1:49:10 통계적 분석, 인과관계, 1:49:18 빅데이터 환경, 상관관계 1:49:50 애자일 모델 (플랜, 문서 주도, 예측 개발하지 않고, 주기를 갖고 프로토타입 개발, 개선) 1:50:32 79 프로토타이핑 프로세스 상향식 적합. 요구사항, 데이터 소스 없음, 일단 분석, 결과 확인, 반복적 개선. 빅데이터 분석 환경에서 유용. 1:51:08 80 빅데이터 환경에서 프로토타이핑 역할*** 1:52:00 81 분석 과제 정의서 1:52:09 82 분석 프로젝트 관리 방안 1:53:26 Data size, Data complexity, Speed, Analytic Complexity, Accuracy & Precision 정의*** 1:54:48 1:55:05 83 분석 프로젝트 영영별 주요 관리 항목 타임 박싱
1:56:05 2과목 데이터 분석 기획 (84~102) 5장. 분석 마스터 플랜 1:56:55 84 분석 마스터 플랜 단기적인 세부 이행계획, 중장기 로드맵, 거버넌스, 1:58:09 85 마스터 플랜 수립 프레임 워크*** 비즈니스 성과 ROI 1:59:08 정보 전략 계획 (ISP, Information Strategy Planning) 정의* 1:59:41 86 ROI 관점에서 보는 빅데이터 4V *** 2:00:26 87 ROI 요소를 고려한 우선순위 평가 기준*** 시급성 전략적 정의도 시점, 난이도 정의 비용과 범위 측면 2:01:10 시급성 비즈니스 효과 (Val), 난이도 투자비용 요소 (Vol, Vel, Var) 2:01:32 88 사분면 분석을 통한 과제 우선순위를 선정하는 기법 3-1-2 2:02:00 89 분석 과제 우선순위 조정 2:02:35 기술적, 분석 범위에 따라 분석과제 적용 우선순위는 조정 가능하다 2:02:56 90 분석 거버넌스 데이터 품질 관리, 규칙, 규범, 프로세스 분석 거버넌스 : 내부적 관리 방식 및 프로세스 2:03:45 91 분석 거버넌스 체계 구성 요소* 조직, 과제 기획 및 운영 프로세스, 분석 관련 시스템, 데이터, 분석 관련 교육 및 마인드 육성체계 2:04:28 92 데이터 분석 성숙도 모델 및 수준 진단 분석 방법론(KDD,CRISP,빅데이터 분석 방법론), 상향식과 하향식, 분석 준비도와 성숙도 2:05:23 분석 준비도 6개 영역***상, 하 분석 업무 파악, 인력 및 조직, 분석기법, 분석 데이터, 분석문화, IT 인프라 2:06:45 93 분석 성숙도 모델 비즈니스 부문, 조직 역량 부문, IT부문, 도입, 활용, 확산/최적화 단계 구분 *** 2:07:50 93 분석 성숙도 모델 CMMI (Capability Maturity Model Integration) : 능력 성숙모델 2:08:11 94 분석 수준 진단 결과 유형별 특성 구분 *** 높은 성숙도와 준비도 확산형, 반대는 준비형, 정착형, 도입형 2:09:10 95 데이터 거버넌스란** 품질에 집약된 거버넌스, 전사차원 전체 데이터, 정책, 지침, 표준화 관리체계 마스터 데이터, 메타 데이터, 데이터 사전 2:09:47 96 빅데이터 거버넌스와 데이터 거버넌스 차이점* 빅데이터, 포괄적 범위, 2:10:05 97 데이터 거버넌스의 구성요소* 원칙, 조직, 프로세스 2:10:30 98 데이터 거버넌스 체계 요소**** 데이터 표준화, 데이터 관리 체계, 데이터 저장소관리, 표준화 활동 2:10:47 99 데이터 분석업무 주체에 따른 3가지 유형*** DSCoE(데이터 전문 분석 조직), 집중, 기능, 분산 구분*** 2:11:38 100 분석 과제 관리 프로세스 수립* 과제관리 프로세스, 과제 발굴, 과제 수행 및 모니터링 2:11:57 101 분석 교육 및 변화관리 분석 교육의 목표는 단순한 툴 교육이 아닌 분석 역량을 확보 강화 2:12:45 102 데이터 거버넌스와 관련된 용어정리** 마스터데이터, 기준정보, 메타데이터, 데이터의 데이터, 검색 용이를 위해, 2:13:24 데이터 사전 효율적 사용위해 저장 정보 요약, 데이터를 정의하고 설명하는 메타데이터를 유지하는 것, 오류,
2:45:14 3과목 데이터 분석 (116~144) 7장. 통계분석 01. 통계학 개론(확률 개념, 확률 분포, 가설 검정 추정)* 02. 기초 통계분석 (x) 03. 다변량분석 (주성분분석, 상관분석)*** 04. 시계열 예측 ()** 2:46:44 116 모수와 추정량 모수, 통계량, 추정량과 추정치 구분 2:47:07 모수 (모집단 특성치, 평균, 분산, 표준편차 비율) 2:47:24 모집단을 모를 시 샘플링을 통한 통계량 바탕으로 추정량(함수), 추정치(결과값) 2:48:20 117 조건부 확률과 곱셈법칙 베이즈 이론을 위한 이해 필요 종속적 관계 2:52:42 곱셈법칙 2:52:55 독립법칙 2:54:08 독립사건 독립이면 독립사건이다 2:55:23 118 확률변수 표본공간 내에 있는 각 원소, 실수 대응 시킨 함수. 동전 앞은 1, 뒤는 0 2:55:47 이산형 확률변수 2:55:51 연속형 확률변수 2:55:56 확률 질량 함수, 이산형 확률변수 기대값***, 계산문제*** 2:56:05 확률 밀도 함수 2:57:02 표본공간, 모집단x. 2:57:37 119 확률분포의 유형 2:58:04 중요한 이산 확률 분포 베르누이분포, 이항분포, 2:58:25 포아송분포 (사건의수) 정의 * 2:58:51 F분포, 카이제곱 분포. 표본 분포에서 나옴 2:59:05 포아송분포와 지수분포 관계, 역수 관계 2:59:30 120 카이제곱 검정** 2:59:47 카이제곱 검정 3가지 적합성 검정 : 실제가 맞는지 확인 하는것 3:00:20 독립성 검정 3:00:35 동질성 검정 3:00:52 공통부분 범주형 자료분석 전부 비모수 검정 3:01:16 121 중심극한정리* 표본크기, 근사 정규분포. 3:02:15 122 중요한 표본분포 카이제곱분포, 표본분포, 분산. T분포, 표본분포, 3:03:15 z분포 대신 t분포 3:03:25 f분포, 두 분포의 분산이 동일한지, 1이면 두분포 동질. 3:03:49 123 가설검정 모수를 가설 검정하기 때문에 오류가 있을수 있다.*** 1종오류와 2종 오류의 정의*** 3:04:57 3:05:09 가설은 두가지가 존재한다, 귀무가설(일반적인 가설), 대립가설(주장하는 가설) 3:06:02 1종 오류, 2종 오류 구분. ** 3:06:08 1-b (검정역) 거짓 귀무가설을 기각할 수 있는 옳은 결정 **정의 3:06:24 a, b 3:06:45 3:07:34 검정통계량 3:07:50 1종오류와 2종오류 개념문제 가설검정, 기각역 표본크기, a, b 3:08:30 124 유의확률 vs 유의 수준 유의 수준 (a) : 1종오류를 범할 확률의 최대값 a. 귀무가설을 기각하고 말고의 기준점. 유의 확률 (P-value) : 귀무가설의 극단적으로 작은 경우 (귀무가설이 맞다는 전제하에 표본에서 실제로 관츨된 확률) 귀무가설의 강한 반증 3:18:30 130 다중공선성 (설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란) 독립변수가 많을 경우 발생하는 문제점 3:19:05 131 다중공선성 3:19:37 132 상관관계가 높은 변수들이 포함되었을 때** 3:20:15 133 정규화 선형회귀** 모든 독립변수를 투입하는방법 3:20:32 퍼널티를 부여하는 방법 능형 회귀 L2 릿지**, 주성분 회귀 3:21:00 라쏘 회귀 L1, *** 3:21:24 134 회귀분석 결과 개별회귀계수 t값의 의미*** 3:23:10 135 회귀분석의 가정조건 3:25:30 136 회귀분석 결과 해석*** (독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법, 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법) 3:26:01 여러 독립변수가 있는 다중회귀분석(=다변량회귀분석), 회귀계수 0, 절편값 남음, 3:26:14 (회귀분석이란) 두변수의 영향력 파악, 절편만 있다, 선형이 없다, 모형 유의 없다. 3:26:40 통계적 유의미 (F분포값) 3:26:47 회귀계수들이 유의미 (회귀계수의 t값) 3:26:54 다중회귀 분석 결과가 있음, 별표 있음 1,(0.01) 2(0.001), 3(0.5) 수준 유의성을 말함.) 3:27:25 설명력 (결정 계수(전체제곱합, 회귀제곱합, 오차제곱합)) (전체 데이터를 회귀모형이 설명할 수 있는 설명력을 의미한다.) 회귀분석 결과, R^2 (0~1), 1 독립으로 종속을 설명 가능. 3:27:50 적합 (잔차통계량) (결정계수를 통해 추정된 회귀식이 얼마나 타당한지 검토. 독립변수가 종속변수 변동의 몇%를 설명하는가. 독립변수의 수가 많아지면 결정계수가 높아진다,,,,, 독립변수가 유의하든, 안하든 독립변수가 많으면 결정계수가 높아진다.(단점)) 등분산성, 정규성 파악으로 확인 가능. 3:28:18 잔차분석*** 오차와 잔차(오차, 모집단에서 실제값이 회귀선과 비교해 나타는 차이, 정확치와 관측치. ()(모형에서 오차항x) 잔차, 표본에서 나온 관측값과 회귀선과 비교 차. ), 모집단 x, 잔차항 검토 ([회귀식기준 흩어진정도]), 오차항의 가정조건 확인. (잔차를 오차항의 관찰값으로 해석) 3:28:40 Fitting, Q-Q, Scale-Location, Leverage 그래프 분석*** 3:28:55 첫번째, 잔차의 분포 확인, 등분산성, 골고루 관측치 잔차가 표현시. 몰려있음 안됨. [오분, 입변, 일정] 3:29:18 두번째, 정상성, 오차, 정규분포, Q-Q. 선상에 있으면 정상성. [오분 정규, Q,히,샤] 3:29:38 세번째 Outlier, 네번째 극단값. 3:30:10 독립성, Durbin-Watson 통계량으로 확인 가능. [입,오,독,DW] 3:30:25 정규성, 샤피로 위크, 히스토그램, Q-Q. 3:30:35 등분산성, 3:30:40 기울기 0을 중심으로 // 만족함 3:30:54 3:31:10 138 회귀분석 단계적 변수 선택 방법 3:31:23 차원축소 3:31:31 // 3:31:40 새로운 데이터를 모형에 넣을 시 예측치 편차가 커짐. 과대적합 3:32:11 3:32:20 변수 선택 방법 3:32:27 1. 후진 제거법** 제거된 변수 추가 않는다. 3:32:51 2. 전진 선택법 반대 개념. 3:33:25 단계별 방법 3:34:06 단계적 회귀분석 함수** 3:34:44 139 상관분석****기출 3:35:15 선형성의 강도, 방향 안다. 상관계수로 변수 간의 유의성을 확인할 수 없음 3:35:52 인과관계. 상관관계와 회귀분석은 다른다. 3:36:02 상관관계 () 3:36:07 회귀분석은 두변수의 영향력 파악 3:36:22 3:36:25 유의확률, 3:36:31 상관성의 방향성, 모름. 3:36:44 피어슨 상관계수, 스피어만 상관계수(서열척도, 순서, 순위상관계수) 3:37:59 피어스 상관계수. 3:37:17 공분산 (r, 확률변수 X, Y 의 방향의 선형성. 분산의 기울기, 1=완전, -1=완전, 기울기는 비슷 흩어짐 0.8. X,Y가 독립이면 0) 3:37:24 두 변수의 선형성과 강도를 파악x, 공분산 양수, 특정한 확률변수가 증가 시. y도 증가. 공분사 음수, 특정한 확률변수가 증가시, y는 감소. 3:37:43 공분산, 민감함. 3:37:51 공분산을 표준화한 것이 상관계수 범위 (-1,1), 3:38:03 두 확률 변수가 독립이면 공분산은 0 이다. 3:38:28 다차원척도법, 스트레스 값. 3:39:32 주성분의 개념**** 3:40:06 단계적변수선택에서 언급됨 상위에 차원축소 카테고리가 있으나 접근법이 다름 3:40:26 단계적 변수 선택은 전체 집합중 영향있는 변수만 선택. 3:40:31 기존의 변수에서 새로운 주성분의 특징을 추출하는 방법. 3:40:45 n개 관측치 // 변수 상관성을 바탕으로 피게의 변수보다 적은 주성분으로 차원축소 하는 방법 각 주성분은 독립 적인 무관한 관계이다. 3:41:07 각 주성분들은 PC1 종속변수, PC2 주성분변수. 각 독립변수로 선형 결합형태로 표현. 3:41:37 주성분분석 함수를 통해 3:41:57 주성분, 차원 축소, 정보손실, 제1주성분을 선택. 3:42:22 142 주성분 분석 수 결정 기준 3:43:25 성분들이 설명하는 분산의 비율*** 주성분이 총분산의 비율 해당되는 주성분을 70~90% 사이에 있는 주성분의 개수를 선택 3:43:15 피알컴과 프링컴 주성분 분석 함수를 통해 결과를 해석하는 거 중요함 3:43:26 1. 성분이 설명하는 분산의 비율. 1-분산비율 = 정보손실량 3:43:45 2. 고윳값 1이상. 분산의 크기 3:44:03 새로운 주성분을 뽑는데 필요한 지식 고윳값, 고유벡터, 공분산 분해 시, 분산이 크면 첫번째 주성분이 된다. 그래야 전체 데이터를 잘 설명이 된다. 그 값이 1이상이된다. 3:44:31 3. Scree plot Elbow point에서 주성분 선택 몇개로 축소를 할지 결정하게 된다. 3:44:48 3:45:01 각 주성분은 상관성 없는 독립관계 3:45:00 각 주성분은 기존의 변수로 선형결합 할수 있다 그래서 주성분마다 해당 변수의 중요도 가중치 회귀계수를 통해 파악 가능 3:45:15 3:45:19 분석 결과 설명력 , 정보 손실량 해석 3:46:02 143 시계열 모형***키워드만 3:46:40 정상성 평균, 분산값이, 시간 t와 무관. 공분산은 시차에만 의존. 3:47:06 비정상 시계열 변환 방법 차분, 평균이 일정, 3:47:25 원시계열 - 전시계열 차분이다. 계절차분 원계열 자연로그 3:47:47 모형 식별 3:48:04 p,d,q를 보고 모형 식별 가능. 3:48:44 AR 모형 정의 3:48:55 MA 모형 3:49:00 백색잡음 3:49:13 AR 편자기함수(PACF), MA 자기상관함수로(ACF) 구분. 3:50:03 3:51:02 분해시계열*정의 추세, 계절, 순환(알려지지 않은 주기), 불규칙(설명할 수 없는 분석). 3:53:27 144 시계열 분석 기법 평활법 3:54:14 정상성을 가진 AR, MA : ARMA 비정상성을 가진 AR, MA : ARIMA. 평균이 일정하지 않아 차분한다.
[ADsP 단기속성반🔥]
bit.ly/3KpVQ17
최근 6년 기출문제를 바탕으로
출제 경향 완벽 반영!
4주만에 끝내는 단기속성반
지금 바로 신청하세요!
여기에 이런글 쓰는게 맞는건지 모르겠지만 너무 반가워서 적어봅니다..중학교 동창인데...정말 졸업한 이후로 수십년 만에 유튜브에서 처음 보는데 얼굴 까만건 여전하고 선한 인상도 바뀐게 없네요..중2때 같은반..
이댓글이 뻘하게 웃기네요 ㅋㅋㅋ 강사님 어린아이 시절 상상하게되는 ㅋㅋㅋ
점심 먹고 강의를 보니 바로 잠이 솔솔 온다고 할 수 있겠습니다
1-1 데이터의이해 1~20번 0:00
1-2 데이터의가치와미래 21~ 34번 28:26
1-3 데이터 사이언스와 인사이트 35~47번 46:23
2-1 데이터분석기획의이해 48~83번 59:49
2-2 분석마스터플랜 84~102번 1:56:08
꼭 합격한다고 할 수가 있겠습니다
계속 이게 들려 ㅋㅋㅋㅋ
초엑기스 요약강의라고 할 수 있겠습니다
꼭 이 강의를 들어야 한다고 다시한번 강조해서 말씀을 드립니다
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ아니 어떻게 모든 어미를 이렇게 끝내실 수가 있냐고 물어볼 수가 있겠습니다
@@이규진-s9i이댓글보고 이거밖에 안들리게 되었다고 말씀드릴수 있겠습니다
이 요약강의만 봐도 합격한다고 할 수 있겠습니다.
공부 열심히해서 꼭 합격한다고 볼 수가 있겠습니다 ❤❤
2과목 59:47
3과목 2:14:41
조건부확률 계산문제 2:51:00
이원카이제곱검정 3:01:10
2:17:12 3과목 시작
실질적 R 버리고 3과목 시작 2:46:00
버린다는게 무슨뜻인가요?
목소리에 꿀이 떨어집니다 여태까지 누적되얶던1시간동안 잠이 솔솔와요~~~!!
4:27:17
강의 열정적으로 해주셔서 너무 감사드립니다!! 열정이 느껴져요ㅎㅎㅎ 꼭 합격하겠습니다!☺️
본 교재로 공부하다가 (QR 강의는 활용 못함) 시험 전 이 동영상을 우연히 봤는데요.
교재가 이해가 훨씬 잘 되더라구요. 36회 예상 기출로 짚어주신 부분도 나왔습니다. 감사합니다.
이거 한번보고 인터넷 요약집 보고 72점 나왔네요
강의 진짜 잘하시는거같습니다 덕분에 합격합니다 감사합니다.
혹시 인터넷 요약집은 어디서 구하셨나요?ㅎㅎ
@@마곡인 그냥 인터넷검색하면 나오는거 다봤습니다 3개쯤뽑았네요
쌤!!덕분에 단답식없어진 첫 시험인 40회에서도 여유있게 합격했어요!! 감사합니다!!
저는 영상 필기하면서 한번 들었고 중요하다 하신부분 여러번 보고 기출돌렸어요!
벼락치기를 지금 시작한다고 할 수 있겠습니다.
ㅎㅇㅋㅋ저도요 4일 뒤에 뵙죠
@@cl8342 ㅎㅇㅌ
전 지금 이거 보고 기출 처음 풀려구요 벼락치기 개레전두~
@@baguezi8055 썬더 스트라이크 드가자~
나도 시작 ㅋㅋ
도서관에서 옛날책으로 3일공부했고 이 강의까지 듣고 낼모레 시험 합격했으면 좋겠네요 ㅠㅠㅠ 이런 강의를 무료로 올려주시다니 너뭄너무 감사합니다~!!
강의 한번보고 3일동안 기출 빡시게 돌려서 60점 합격했습니다. 너무 짜릿합니다. 감사합니다
이거 보고 합격했어요!! 너무 너무 감사합니다! 👍🏻 최고예요
10일 남은 시점에서 벼락치기를 한다고 볼 수 있겠습니다
1일 남는 시점에서 벼락치기를 한다고 볼수가 있겠습니다
일목요연하게 설명해주셔서 술술 볼 수 있어서 좋네요:) 감사합니다!
3강
- 8파트 : 03:55:10
- 7파트 : 2:45:16
아~예 쌩 초보는 이거 듣지마세요, 좀 공부하고 들어야지 이해 됩니다.
시험일주일전에 시작인데 열심히해서 꼭 합격댓글달겠습니다!
4:42:30 5가지 계산 문제 정리 ( 조건부확률 / 맨해튼거리 / 불순도지표 진입각 계산 / 연
관성 )
쌤 감사해요 어제 한번 돌리고 시험쳤는데 가르쳐주신 부분에서 많이 나왔네요 ㅎㅎ
3과목 시작 2:14:17
이거보고 붙었습니다
정말 감사합니다😊
평소 궁금했던 데이터베이스에 대해 공부할 수 있어서 좋았습니다. 감사합니다.😂😂😂
이제 막 공부를 시작한 입문자와 비전공자분들은 조금 더 기초 개념을 다지신 뒤에 본 강의를 들으셔야지 이해와 정리가 될 거라고 할 수가 있겠습니다.
도대체 몇번이나 할 수가 있겠습니까? 할 수가 할 수가 … 참을 수가 없겠다고 할 수가 있겠다 할 수 있겠습니다.아아아아앜
4:27:15 킬링파트❤
4:27:16 선생님 귀여우세영...
4:27:18 심심할때 보기
잘 보고 있습니다. 감사합니다
2:45:18
통계분석
공부하기
1:45:16
adsp 공부 1일차 오늘 시험인데 밤샌다 파이팅
내가 보기 위에 만든 타임라인
21:14
2:45:33 7장 통계분석 120번
3:49:56 시계열 모형 식별하기
3:57:00
2과목 )
2-1. 분석 기획 방향성 도출
2-2. 분석 방법론
2-3. 분석 과제 발굴
2-4. 분석 프로젝트 관리 방안.
2:17:17 3과목시작
2:12:12 / 100 분석 과제 관리 프로세스 수립
3:54:54 8장 정형 데이터 마이닝
감사합니다.
1:56:10 2과목 2장~
1일차
35:23
03:55:00 8강
02:17:00 6강
02:45:40 7강
1:08:19 hdfs 실시간처리어려움 반면 n은 실시간처리가능
좋은 강의 넘 감사해요❤
지방에 거주합니다.
adsp를 지방에서도 응시할수 있나요?
자격요건은 없나요?
고등학생입니다.
2:46:00 3과목
밤새고 가본다.. 제발 벼락치기 성공해보자 하...
@@Baa-o4w 생존?
1:33:03 63. 데이터 분석
3과목 2:14:58
잘 보고갑니다~ 무편집본인가 보넨요.. 165번 편집이 ㅋㅋㅋ
@4:01:33 영상 정말 잘 보고 있습니다 감사합니다:)
그런데 (1-특이도) 설명해주실 때 해당 의미는 "실제로는 음성인데 양성으로 잘못 예측한 것"인 것 같은데 반대로 잘못 설명해주신 것 같아 댓글 남깁니다!
3-8. 정형 데이터마이닝 3:54:53
1:18:40 crispdm
1:21:00 crispdm
4:43:21 마할라노비스 거리
45:28
58:56
2:13:53
3과목 120:14
2:45:16 3과목 통계분석
3:30:10 부터 이어듣기
1:37:58 2과목 이어듣기
질의응답 오픈햇대서 책 이해 안가능 부분 카톡으로 질문했는데 읽지도 않네요 ㅇㅅㅇ
유튜브 강의에 대한 교재나 교안이있나용?
1:06:42
1:12:51
1:44:49
수포자인데 계산문제 큰일났습니다..
21:16
28:40
34:20
51:53
2:48:00
3:12:02
3:28:41
3:34:44
3:43:43
59:51 2과목 시작
31:27 책갈피
R 2:17:30
51:53 41번
2:17:29 -3과목
2과목 시작 59:48
1:56:23 마스터플랜
2:18:11 3장
책 앞에 큐알 r활용 강의 어딨어요?
큐알 찍음 2022출제경향분석?인가 나오고 와우패스든 유튜브든 어디서도 찾을수도 없고.
책에 카톡 아이디 추가하고 질문하라 적어두셨는대 되지도 않고
안녕하세요, 와우패스입니다.
QR코드의 연결링크의 오류가 있어 변경 진행 중입니다.
우선 아래 URL에서 강의 확인해주시고, 최대한 빠르게 복귀 조치 하겠습니다.
[www.wowpass.com/Event/EV2207140002]
해당 URL에서 R 활용 강의 입과 받으실 수 있습니다.
혼련을 드려서 죄송합니다!
1:19:00
1:38:07 /
03:55:10
3:00:59 카이제곱 검정이 비모수 검정이라구요..? 카이제곱 분포를 따르는데욥..?
3.47
16:50
59:00
59:58
14:17
38:29
1:00:24
29:00
1:40
1:40:00
240224 목표 달성
59:50 2과목 데이터 분석 기획
4장. 데이터 분석 기획의 이해 (48~89)
1:06:20 51 데이터 저장 방식
1:06:39 RDB
1:06:53 NOSQL
1:07:29 HDFS
특징 도구
1:08:30 52 기업의 합리적 의사결정 장애 요소
1:09:38 53 분석 방법론의 구성 요소
1:10:20 54 폭포수/나선형/프로토타입 모델 1:10:33 폭포수 1:11:10 나선형 1:11:50 프로토타입
1:12:42 55 KDD 분석 방법론
1:13:16 56 KDD 분석 절차
1:13:37 분석 대상의 이해와 프로젝트 목표 설정
1:13:58 데이터 셋
1:14:04 데이터 전처리
1:15:23 데이터 변환 ( 1:16:00차원 축소, 1:16:38 과대적합)
1:16:54 데이터 마이닝
1:17:14 데이터 마이닝 결과평가
1:18:40 57 CRISP-DM 분석 방법론
1:19:30 모형 설명
1:19:52 58 CRISP-DM 분석 절차
1:21:09 업무 이해
1:22:00 데이터 이해
1:22:32 데이터 준비
1:23:00 모델링 (과대적합)
1:24:35 평가
1:25:00 전개
1:25:19 기출 포인트 정리
1:26:44 59 계층적 프로세스 모델 3계층 구성 (단계, 테스크, )
1:28:20 60 빅데이터 분석 방법론 (기,준,분,시,평)
1:29:50
1:30:25 61 분석 기획 planning : phase 해당 (sow, task)
1:31:20 회피, 전이, 완화 수용()
1:32:15 62 데이터 준비 (데이터 스토어)
1:33:00 63 데이터 분석
1:33:33 64 모델링 (과적합, 일반화, )
1:34:43 알고리즘 설명서, 의사코드 수준
1:36:12 65 모델 평가 및 검증
1:36:25 66 시스템 구현
1:37:14 67 평가 및 전개 (지금까지 분석 방법론)
1:37:59 68 분석 과제 발굴 (하향식 접근방식, 상향식 접근방식, )
1:39:00 69 디자인 씽킹
1:39:32 상향식(Diverse)과 하향식(Converse),
1:40:10 70 디자인 씽킹 프로세스 5단계
Empathize, Define, Idea, Prototype, Test
1:41:05 하향식 접급법 (Top-Down) 한계
1:42:45 72 문제탐색
업무, 제품, 고객, 규제와 감사, 지원 인프라
1:43:43 73 혁신의 관점(중장기관점) 분석기회 발굴확장 - 거시적 관점(STEEP) 사회, 기술, 경제, 환경, 정치*
1:44:15 대체재 파악, 경쟁자 파악, 신규진입자 파악***
1:44:38 시장의 니즈 관점*
고객 개선 의견을 분석, 소비자를 향한 모든 채널 분석, 영향자들의 관심 파악 분석
1:44:50 역량의 재해석 관점
내부 역량, 파트너 역량
1:45:10 외부 참조 모델 기반 탐색**
분석 유즈 케이스
1:45:45 75 문제 정의
비즈니스 문제를 데이터 문제로 변환
1:46:20 76 해결 방안 탐색
1:46:50 77 타당성 검토 단계 ***
하향식 접근 방식
경제적, 데이터, 기술적 타당성
1:48:08 78 상향식 접근 방식 (Bottom Up Approach)
상향식 하향식 개념 구분 **
데이터를 기반으로 무제의 재정의
1:48:45 비지도 학습(목표변수가 없음), 군집분석***,
1:49:10 통계적 분석, 인과관계,
1:49:18 빅데이터 환경, 상관관계
1:49:50 애자일 모델 (플랜, 문서 주도, 예측 개발하지 않고, 주기를 갖고 프로토타입 개발, 개선)
1:50:32 79 프로토타이핑 프로세스
상향식 적합.
요구사항, 데이터 소스 없음, 일단 분석, 결과 확인, 반복적 개선. 빅데이터 분석 환경에서 유용.
1:51:08 80 빅데이터 환경에서 프로토타이핑 역할***
1:52:00 81 분석 과제 정의서
1:52:09 82 분석 프로젝트 관리 방안
1:53:26 Data size, Data complexity, Speed, Analytic Complexity, Accuracy & Precision 정의***
1:54:48
1:55:05 83 분석 프로젝트 영영별 주요 관리 항목
타임 박싱
1:56:05 2과목 데이터 분석 기획 (84~102)
5장. 분석 마스터 플랜
1:56:55 84 분석 마스터 플랜
단기적인 세부 이행계획, 중장기 로드맵, 거버넌스,
1:58:09 85 마스터 플랜 수립 프레임 워크***
비즈니스 성과 ROI
1:59:08 정보 전략 계획 (ISP, Information Strategy Planning) 정의*
1:59:41 86 ROI 관점에서 보는 빅데이터 4V ***
2:00:26 87 ROI 요소를 고려한 우선순위 평가 기준***
시급성 전략적 정의도 시점, 난이도 정의 비용과 범위 측면
2:01:10 시급성 비즈니스 효과 (Val), 난이도 투자비용 요소 (Vol, Vel, Var)
2:01:32 88 사분면 분석을 통한 과제 우선순위를 선정하는 기법
3-1-2
2:02:00 89 분석 과제 우선순위 조정
2:02:35 기술적, 분석 범위에 따라 분석과제 적용 우선순위는 조정 가능하다
2:02:56 90 분석 거버넌스
데이터 품질 관리, 규칙, 규범, 프로세스
분석 거버넌스 : 내부적 관리 방식 및 프로세스
2:03:45 91 분석 거버넌스 체계 구성 요소*
조직, 과제 기획 및 운영 프로세스, 분석 관련 시스템, 데이터, 분석 관련 교육 및 마인드 육성체계
2:04:28 92 데이터 분석 성숙도 모델 및 수준 진단
분석 방법론(KDD,CRISP,빅데이터 분석 방법론), 상향식과 하향식, 분석 준비도와 성숙도
2:05:23 분석 준비도 6개 영역***상, 하
분석 업무 파악, 인력 및 조직, 분석기법, 분석 데이터, 분석문화, IT 인프라
2:06:45 93 분석 성숙도 모델
비즈니스 부문, 조직 역량 부문, IT부문, 도입, 활용, 확산/최적화 단계 구분 ***
2:07:50 93 분석 성숙도 모델
CMMI (Capability Maturity Model Integration) : 능력 성숙모델
2:08:11 94 분석 수준 진단 결과 유형별 특성 구분 ***
높은 성숙도와 준비도 확산형, 반대는 준비형, 정착형, 도입형
2:09:10 95 데이터 거버넌스란**
품질에 집약된 거버넌스, 전사차원 전체 데이터, 정책, 지침, 표준화 관리체계
마스터 데이터, 메타 데이터, 데이터 사전
2:09:47 96 빅데이터 거버넌스와 데이터 거버넌스 차이점*
빅데이터, 포괄적 범위,
2:10:05 97 데이터 거버넌스의 구성요소*
원칙, 조직, 프로세스
2:10:30 98 데이터 거버넌스 체계 요소****
데이터 표준화, 데이터 관리 체계, 데이터 저장소관리, 표준화 활동
2:10:47 99 데이터 분석업무 주체에 따른 3가지 유형***
DSCoE(데이터 전문 분석 조직), 집중, 기능, 분산 구분***
2:11:38 100 분석 과제 관리 프로세스 수립*
과제관리 프로세스, 과제 발굴, 과제 수행 및 모니터링
2:11:57 101 분석 교육 및 변화관리
분석 교육의 목표는 단순한 툴 교육이 아닌 분석 역량을 확보 강화
2:12:45 102 데이터 거버넌스와 관련된 용어정리**
마스터데이터, 기준정보, 메타데이터, 데이터의 데이터, 검색 용이를 위해,
2:13:24 데이터 사전
효율적 사용위해 저장 정보 요약, 데이터를 정의하고 설명하는 메타데이터를 유지하는 것, 오류,
3과목 데이터 분석
6장. R기초와 데이터 마트 15% (103~115)
7장. 통계분석 35%, (116~144)
8장. 정형데이터 마이닝 50% (145~185)
3과목은 가중치만 공부하면 된다
2:45:14 3과목 데이터 분석 (116~144)
7장. 통계분석
01. 통계학 개론(확률 개념, 확률 분포, 가설 검정 추정)*
02. 기초 통계분석 (x)
03. 다변량분석 (주성분분석, 상관분석)***
04. 시계열 예측 ()**
2:46:44 116 모수와 추정량
모수, 통계량, 추정량과 추정치 구분
2:47:07 모수 (모집단 특성치, 평균, 분산, 표준편차 비율)
2:47:24 모집단을 모를 시 샘플링을 통한 통계량 바탕으로 추정량(함수), 추정치(결과값)
2:48:20 117 조건부 확률과 곱셈법칙
베이즈 이론을 위한 이해 필요
종속적 관계
2:52:42 곱셈법칙
2:52:55 독립법칙
2:54:08 독립사건
독립이면 독립사건이다
2:55:23 118 확률변수
표본공간 내에 있는 각 원소, 실수 대응 시킨 함수.
동전 앞은 1, 뒤는 0
2:55:47 이산형 확률변수
2:55:51 연속형 확률변수
2:55:56 확률 질량 함수, 이산형 확률변수 기대값***, 계산문제***
2:56:05 확률 밀도 함수
2:57:02 표본공간, 모집단x.
2:57:37 119 확률분포의 유형
2:58:04 중요한 이산 확률 분포
베르누이분포, 이항분포,
2:58:25 포아송분포 (사건의수) 정의 *
2:58:51 F분포, 카이제곱 분포. 표본 분포에서 나옴
2:59:05 포아송분포와 지수분포 관계, 역수 관계
2:59:30 120 카이제곱 검정**
2:59:47 카이제곱 검정 3가지
적합성 검정 : 실제가 맞는지 확인 하는것
3:00:20 독립성 검정
3:00:35 동질성 검정
3:00:52 공통부분 범주형 자료분석 전부 비모수 검정
3:01:16 121 중심극한정리*
표본크기, 근사 정규분포.
3:02:15 122 중요한 표본분포
카이제곱분포, 표본분포, 분산. T분포, 표본분포,
3:03:15 z분포 대신 t분포
3:03:25 f분포, 두 분포의 분산이 동일한지, 1이면 두분포 동질.
3:03:49 123 가설검정
모수를 가설 검정하기 때문에 오류가 있을수 있다.***
1종오류와 2종 오류의 정의***
3:04:57
3:05:09 가설은 두가지가 존재한다, 귀무가설(일반적인 가설), 대립가설(주장하는 가설)
3:06:02 1종 오류, 2종 오류 구분. **
3:06:08 1-b (검정역) 거짓 귀무가설을 기각할 수 있는 옳은 결정 **정의
3:06:24 a, b
3:06:45
3:07:34 검정통계량
3:07:50
1종오류와 2종오류 개념문제
가설검정, 기각역
표본크기, a, b
3:08:30 124 유의확률 vs 유의 수준
유의 수준 (a) : 1종오류를 범할 확률의 최대값 a. 귀무가설을 기각하고 말고의 기준점.
유의 확률 (P-value) : 귀무가설의 극단적으로 작은 경우 (귀무가설이 맞다는 전제하에 표본에서 실제로 관츨된 확률) 귀무가설의 강한 반증
3:18:30 130 다중공선성 (설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란)
독립변수가 많을 경우 발생하는 문제점
3:19:05 131 다중공선성
3:19:37 132 상관관계가 높은 변수들이 포함되었을 때**
3:20:15 133 정규화 선형회귀**
모든 독립변수를 투입하는방법
3:20:32 퍼널티를 부여하는 방법
능형 회귀 L2 릿지**, 주성분 회귀
3:21:00 라쏘 회귀 L1, ***
3:21:24 134 회귀분석 결과 개별회귀계수 t값의 의미***
3:23:10 135 회귀분석의 가정조건
3:25:30 136 회귀분석 결과 해석***
(독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법, 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법)
3:26:01 여러 독립변수가 있는 다중회귀분석(=다변량회귀분석), 회귀계수 0, 절편값 남음,
3:26:14 (회귀분석이란) 두변수의 영향력 파악, 절편만 있다, 선형이 없다, 모형 유의 없다.
3:26:40 통계적 유의미 (F분포값)
3:26:47 회귀계수들이 유의미 (회귀계수의 t값)
3:26:54 다중회귀 분석 결과가 있음, 별표 있음 1,(0.01) 2(0.001), 3(0.5) 수준 유의성을 말함.)
3:27:25 설명력 (결정 계수(전체제곱합, 회귀제곱합, 오차제곱합)) (전체 데이터를 회귀모형이 설명할 수 있는 설명력을 의미한다.)
회귀분석 결과, R^2 (0~1), 1 독립으로 종속을 설명 가능.
3:27:50 적합 (잔차통계량) (결정계수를 통해 추정된 회귀식이 얼마나 타당한지 검토. 독립변수가 종속변수 변동의 몇%를 설명하는가. 독립변수의 수가 많아지면 결정계수가 높아진다,,,,, 독립변수가 유의하든, 안하든 독립변수가 많으면 결정계수가 높아진다.(단점))
등분산성, 정규성 파악으로 확인 가능.
3:28:18 잔차분석***
오차와 잔차(오차, 모집단에서 실제값이 회귀선과 비교해 나타는 차이, 정확치와 관측치. ()(모형에서 오차항x) 잔차, 표본에서 나온 관측값과 회귀선과 비교 차. ), 모집단 x, 잔차항 검토 ([회귀식기준 흩어진정도]), 오차항의 가정조건 확인. (잔차를 오차항의 관찰값으로 해석)
3:28:40 Fitting, Q-Q, Scale-Location, Leverage 그래프 분석***
3:28:55 첫번째, 잔차의 분포 확인, 등분산성, 골고루 관측치 잔차가 표현시. 몰려있음 안됨. [오분, 입변, 일정]
3:29:18 두번째, 정상성, 오차, 정규분포, Q-Q. 선상에 있으면 정상성. [오분 정규, Q,히,샤]
3:29:38 세번째 Outlier, 네번째 극단값.
3:30:10 독립성, Durbin-Watson 통계량으로 확인 가능. [입,오,독,DW]
3:30:25 정규성, 샤피로 위크, 히스토그램, Q-Q.
3:30:35 등분산성, 3:30:40 기울기 0을 중심으로 // 만족함
3:30:54
3:31:10 138 회귀분석 단계적 변수 선택 방법
3:31:23 차원축소
3:31:31 //
3:31:40 새로운 데이터를 모형에 넣을 시 예측치 편차가 커짐. 과대적합
3:32:11
3:32:20 변수 선택 방법
3:32:27 1. 후진 제거법**
제거된 변수 추가 않는다.
3:32:51 2. 전진 선택법
반대 개념.
3:33:25 단계별 방법
3:34:06 단계적 회귀분석 함수**
3:34:44 139 상관분석****기출
3:35:15 선형성의 강도, 방향 안다.
상관계수로 변수 간의 유의성을 확인할 수 없음
3:35:52 인과관계. 상관관계와 회귀분석은 다른다.
3:36:02 상관관계 ()
3:36:07 회귀분석은 두변수의 영향력 파악
3:36:22
3:36:25 유의확률,
3:36:31 상관성의 방향성, 모름.
3:36:44 피어슨 상관계수, 스피어만 상관계수(서열척도, 순서, 순위상관계수)
3:37:59 피어스 상관계수.
3:37:17 공분산 (r, 확률변수 X, Y 의 방향의 선형성. 분산의 기울기, 1=완전, -1=완전, 기울기는 비슷 흩어짐 0.8. X,Y가 독립이면 0)
3:37:24 두 변수의 선형성과 강도를 파악x, 공분산 양수, 특정한 확률변수가 증가 시. y도 증가. 공분사 음수, 특정한 확률변수가 증가시, y는 감소.
3:37:43 공분산, 민감함.
3:37:51 공분산을 표준화한 것이 상관계수 범위 (-1,1),
3:38:03 두 확률 변수가 독립이면 공분산은 0 이다.
3:38:28 다차원척도법, 스트레스 값.
3:39:32 주성분의 개념****
3:40:06 단계적변수선택에서 언급됨
상위에 차원축소 카테고리가 있으나 접근법이 다름
3:40:26 단계적 변수 선택은 전체 집합중 영향있는 변수만 선택.
3:40:31 기존의 변수에서 새로운 주성분의 특징을 추출하는 방법.
3:40:45 n개 관측치 // 변수 상관성을 바탕으로
피게의 변수보다 적은 주성분으로 차원축소 하는 방법
각 주성분은 독립 적인 무관한 관계이다.
3:41:07 각 주성분들은 PC1 종속변수, PC2 주성분변수. 각 독립변수로 선형 결합형태로 표현.
3:41:37 주성분분석 함수를 통해
3:41:57 주성분, 차원 축소, 정보손실, 제1주성분을 선택.
3:42:22 142 주성분 분석 수 결정 기준
3:43:25 성분들이 설명하는 분산의 비율***
주성분이 총분산의 비율 해당되는 주성분을 70~90% 사이에 있는 주성분의 개수를 선택
3:43:15 피알컴과 프링컴 주성분 분석 함수를 통해 결과를 해석하는 거 중요함
3:43:26 1. 성분이 설명하는 분산의 비율.
1-분산비율 = 정보손실량
3:43:45 2. 고윳값 1이상. 분산의 크기
3:44:03 새로운 주성분을 뽑는데 필요한 지식
고윳값, 고유벡터,
공분산 분해 시,
분산이 크면 첫번째 주성분이 된다. 그래야 전체 데이터를 잘 설명이 된다. 그 값이 1이상이된다.
3:44:31 3. Scree plot
Elbow point에서 주성분 선택
몇개로 축소를 할지 결정하게 된다.
3:44:48
3:45:01 각 주성분은 상관성 없는 독립관계
3:45:00 각 주성분은 기존의 변수로 선형결합 할수 있다
그래서 주성분마다 해당 변수의 중요도 가중치 회귀계수를 통해 파악 가능
3:45:15
3:45:19 분석 결과 설명력 , 정보 손실량 해석
3:46:02 143 시계열 모형***키워드만
3:46:40 정상성
평균, 분산값이, 시간 t와 무관. 공분산은 시차에만 의존.
3:47:06 비정상 시계열 변환 방법
차분, 평균이 일정,
3:47:25 원시계열 - 전시계열 차분이다.
계절차분
원계열 자연로그
3:47:47
모형 식별
3:48:04 p,d,q를 보고 모형 식별 가능.
3:48:44 AR 모형 정의
3:48:55 MA 모형
3:49:00 백색잡음
3:49:13 AR 편자기함수(PACF), MA 자기상관함수로(ACF) 구분.
3:50:03
3:51:02 분해시계열*정의
추세, 계절, 순환(알려지지 않은 주기), 불규칙(설명할 수 없는 분석).
3:53:27 144 시계열 분석 기법
평활법
3:54:14
정상성을 가진 AR, MA : ARMA
비정상성을 가진 AR, MA : ARIMA. 평균이 일정하지 않아 차분한다.
3:54:51 3과목 데이터 분석 (145~185)
8장.정형 데이터 마이닝
01. 데이터 마이닝
02. 모형평가*
03. 분류분석*
04. 군집분석
05. 연관분석
3:55:48 145 데이터 마이닝 6가지 분석기법(기능)
분류, 추정(연속되는 값), 예측(미래를 분류, 예측), 연관분석(아이템의 연관성), 군집(유사성 바탕 그루핑), 기술(데이터 표현)
3:57:00 146 데이터마이닝 추진 5단계
목적설정, 데이터 준비, 데이터 가공(), 기법 적용, 검증
3:57:51 147 분류분석 vs 예측분석 차이점
분류, 카테고리, 범주형.
예측, 연속 예측.
3:58:33 148 지도학습 vs 비지도학습
목표변수의 존재 유무
사례로 판단하기(여부, 패턴 그룹핑)
비슷한 성향을 가진 고객군을 파악 (목표변수 없는 비지도 학습)
3:59:33 149 모형평가********
분류의 모형평가가 타겟
4:00:30
4:03:22 150 교차검증 ****
4:04:13
1. 홀드아웃
6:4, 7:3 (train : test)
4:04:28
2.K-Fold 교차검증
K 카테고리 개수
K-1 Train
1 Test
평균을 만든 것
4:04:59
3. 붓스트랩
63.2% train, 36.8% test
4:05:26 151 혼동행렬
평가지표
범주의 불균형
민감도와 특이도, FP RATE, 정밀도, F1,카파 통계량
4:09:45 152 이익도표 향상도
이익
잘 분류를 했는지
초기에 분류가 좋아야한다.
4:10:07 향상도 곡선
4:10:44 153 로지스틱스 회귀분석
곡선의 모형
4:11:18
범주형
일반선형회귀변수와 차이
4:11:42
카이제곱
4:12:06 선현회귀 분석과 차이점
이진 데이터 적용된다.
[0,1] 한정된다.
계수 불안정
점추정 법 하나, 최대우도추정법
회귀모형의 유의성 검정은 카이제곱분포를 이용한다.
4:12:50 로짓변환
로지스틱 회귀분석은 곡선, 직관적이기 위해 회귀분석처럼 선형으로 만든것
로그와 오즈변환 적용한 함수적 변환.
4:13:30
로짓변환의 정의*
4:13:41
4:14:24 154의사결정나무 특징
불순도
순수도가 증가하게끔 제귀적 분할해야한다.
인공신경망과 장단점 비교
비모수적 방법
설명 및 해석이 쉽다.
잡음 데이터에 민감하지 않다.
변수의 교호작용 파악 :독립변수 목표변수에 영향을 주는것
4:16:02 155 의사결정나무 불순도 측도
카이제곱 통계량
지니지수
엔트로피 지수
4:16:51 의사결정나무 구분
분류나무
이산형 - 카테고리
분류나무
회귀나무인지
불순도 측도
4:17:21 회귀나무
F통계량의 p값
4:17:32 157 정지규칙 vs 가지치기
4:18:39 158 의사결정나무 알고리즘 분류 기준
CART 이산형, 지니값,
CART 연속형, 분산감소량,
4:19:24 159 인공신경망****
입력노드
은닉층
출력하는 형태
4:19:54 입력노드에서 입력신호의 총합을 가중합산하게 된다
4:19:54 입력노드에서 입력신호의 총합을 가중합산하게 된다
w : 가중합산
4:20:11 인공신경망 : 오차가 가장적은 w를 학습하는 것
42020 설정해야하는 파라미터 값이 많음
하이퍼 파라미터
학습률,
은닉 노드수
분석자가 설정해줘야함 (분석 경험이 중요함)
4:20:54 160 역전파 알고리즘 (중요)
입력 노드에서는 입력 신호의 총합 가중합산을 한다.
그 값은 활성함수를 통해 출력
4:21:07
로지스틱 모형을 다른용어로 시그모이드 함수라고한다
4:21:17 시그모이드 함수는 : 출력값이 1, 0 된다.
활성함수를 통해 출력 (확률로)
(0, 0.5 기준, 1. 출력함)
4:21:34
4:21:48 인공신경망의 역전파 알고리즘 : ***
오차를 가장 낮추는 최적의 w 가중치를 찾기 위해 출력층, 은닉층, 입력층으로 가중치를 갱신한다.
SOM과도 비교한다.
4:22:24 161 인공신경망과 SOM의 차이
두개의 교집합은 인공심경망이다.
SOM 한개의 입력층과 출력층이 있으며 경쟁학습을 한다.
4:22:43 SOM은 전방파 알고리즘?
비주류 학습 (군집분석)
4:22:57 162 인공신경망의 은닉 노드수를 정할 때 고려사항
출력층의 노드수는 출력범주의 수로 입력의 수는 입력 차원 수로 결정.
4:24:10 163 인공신경망의 단점
결과에 대해 해석이 쉽지 않다.
최적의 모형을 도출 어려움
데이터 정규화를 하지 않으면 지역해에 빠지게 됨
4:25:13 164 인공신경망 구축 시 고려사항 3가지
1. 입력변수
입력변수는 비슷해야한다. 스케일 함
2. 가중치 초기값 **
가중치가 0에 가까울수록 선형에 유사함
3. 과대적합
많은 가중치를 추정해야해서 과대적합 문제가 있음
4:25:41 165 인공신경망 활성화 함수*
시그모이드 활성함수
함수 분류가 2개 일때 쓴다. (0.5 기준)
4:26:32 비선형 그래프, 복잡한 경계를 위해.
4:26:44 2. 소프트 맥스 다분류 할때 사용하는 활성함수 **
4:26:55 3. ReLU 활성함수 *
기울기 소실 문제 (시그모이드)
42718 xxx
4:27:30 165 재정리
시그모이드 *
ReLU
4:28:52 166 경사하강법 x
최적의 w를 찾는 학습이다. (오차가 가장적은 w)
PC는 각 점 기울기를 통해 가중치 학습한다.
4:29:19 가중치가 적어지는 방향으로 조금씩 이동한다.
4:29:30 경사하강법은 학습률과 관계 있다.
학습률 (하이퍼 파라미터 값)
4:29:41 학습률이 경사하강법을 이용해 이동거리가 커짐에 따라 w를 찾는다.
4:29:49
4:29:52 우리가 찾는건 전역해에서의 W이다.
이동거리가 커지면 지역해에서 W 찾을 수도 있게 된다.
4:30:21 167 기울기 소실문제
기울기 0 에 가까워짐, 시그모이드, ReLU
4:31:13 168 앙상블 모형***
4:31:38 앙상블 정의
여러개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높인다.
4:31:55 베깅, 부스팅, 랜덤포레스트
4:31:45 앙상블 정의***
4:31:55 배깅, 부스팅, 랜던포레스트 구분*
4:32:06 배깅, 부스트랩 방법, 단순임의 복원 추출, 36.8, 표존추출의 방법. 평행을 통해 앙상블.
4:32:46 부스팅, 잘못 추출에 가중치, 뽑히게 한다, 약한분류를 강하게 해준다. 복잡한 경계를 강한 분류 만들기.
4:33:32 랜덤포레스트, 일부데이터만 추출, 배깅 방법, 오버피팅 방지, 배깅의 특별한 방법.
4:34:09 169 서포트 벡터 머신 svm
마진, 마진을 최대 경계,
비선형 분류 가능, 커널 트리.
4:34:52 다시 SVM
마진, 두클래스 경계 최대로 만들기.
선형과 비선형 분류. 비선형 커널 트리 활용(저->고차원 공간사이 평면 활용, 클라스 분류). 주성분과 반대, 고->저.
4:35:54 170 나이브 베이즈 분류*
베이즈 기반, 머신러닝 기법. 조건, 모든 독립변수는 독립이다.
24619
3:34:44 7장 다변량분석 상관분석
4:10:56 8장 분류분석
3:54:52 8장 데이터마이닝 시작
3과목 시작 2:14:41
2:3 2:47:23
27:13
45:32
58:55
1:00:00
1:30:40
14:00
13:41
11:08
28:55
37:18
45:00