- Видео 89
- Просмотров 144 761
데이터의 길
Южная Корея
Добавлен 2 фев 2014
코로나 19 관련 통계, R 통계, 물리교육, 탐구 등에 대한 이야기를 보실 수 있습니다. ^^
01 카카오톡 대화 전처리2
EDA나 텍스트 마이닝에서 사용할 각종 변수를 뽑아내는 방법을 배웁니다.
관련 코드는 제 블로그에서 복사해서 사용하실 수도 있습니다.
cysics.github.io/textmining/kakaotalk-preprocessing2/
관련 코드는 제 블로그에서 복사해서 사용하실 수도 있습니다.
cysics.github.io/textmining/kakaotalk-preprocessing2/
Просмотров: 370
Видео
01 카카오톡 대화 전처리1
Просмотров 6272 года назад
카카오톡 대화방의 대화를 분석하는 텍스트 마이닝 실습 예제입니다. 그 첫번째 시간으로 카톡방 대화를 다운 받아 date, name, coment로 구분해서 데이터를 저장하는 전처리 과정을 공부합니다.
엑셀 데이터 모델 해석하기
Просмотров 3823 года назад
종이컵 비행기와 관련되 데이터의 모델 해석에 대한 내용입니다. 물리적으로 매우 잘 설명되는 결과가 실제 실험결과를 머신러닝으로 분석한 모델에서도 잘 나타납니다. 매우 신기하죠. ^^
머신러닝 모델 해석의 의미 (설명 가능한 머신러닝)
Просмотров 3913 года назад
머신러닝으로 학습한 모델을 활용해서 실험하지 않은 데이터에 대한 값을 예측해 봄으로써 변인들 사이의 관계를 유추할 수 있습니다.
교차검증을 위한 데이터 나누기
Просмотров 4543 года назад
모델이 새로운 데이터를 얼마나 잘 설명하는지 검증하기 위해서는 새로운 데이터를 확보(?)하는 방법에 대한 설명입니다. 층화 추출에 대해 자세히 설명합니다.
데이터 전처리(결측치 제거)
Просмотров 7003 года назад
tidyverse 패키지를 이용하여 데이터를 전처리하는 순서대로, 특히 한국어 어순대로 코드를 작성하여 결측치를 제거하는 방법에 대해 알려드립니다.
실습 : 프로젝트 만들어 데이터 불러오기까지
Просмотров 4453 года назад
지금까지 배운 개념을 총정리해서 실습합니다. 프로젝트를 만들고 프로젝트 폴더 속에 데이터를 붙여 넣은 다음 코드를 작성해서 데이터를 불러오는 과정입니다. 이전에 코드를 작성해봤던 분들이라면 실습 영상만 보고 따라해도 충분할 것 같습니다. 왕초짜분들은 앞에서부터 차근차근 보고 따라해 주세요. ^^
R로 하는 왕초짜를 위한 머신러닝 연수 후 설문 분석
Просмотров 7573 года назад
10월 24~25일 2시간씩 총 4시간 이뤄진 줌 연수에 대한 설문 결과 분석입니다. 나름 얻은 인사이트가 많아서 이를 반영하여 "R로 하는 왕초짜를 위한 머신러닝"영상을 제작하고 있습니다.
R에서 엑셀 데이터 불러오기
Просмотров 9 тыс.3 года назад
R에서 엑셀 데이터를 불러오는 방법에 대한 설명입니다. 패키지의 기능, 코드의 원리 등을 학습하고 실습하는 내용으로 구성되어 있습니다.
분석할 데이터 다운받기
Просмотров 5193 года назад
유튜브 영상을 보면서 따라하시는 분들을 위해 분석할 실험 데이터를 제 깃헙(github.com/cysics/ML_for_beginners)에 올려 놓았습니다. 해당 페이지에서 분석할 엑셀 데이터를 다운받는 방법을 안내합니다.
코딩 폰트 설치, RStudio 환경설정, 프로젝트 만들기
Просмотров 4963 года назад
데이터를 분석하기 위한 마지막 작업입니다. 한글 사용자들도 불편하지 않게 코딩 폰트를 설치하고요, RStudio 환경을 설정하고 프로젝트를 만들어서 파일을 관리할 수 있는 방법을 배워보도록 하겠습니다.
패키지 설치
Просмотров 5363 года назад
패키지에 대한 이해도를 높이고 패키지를 설치하는 방법을 안내합니다. 주의! 영상에서는 rlang이라는 패키지가 없다는 에러 메시지가 떠서 rlang을 설치했습니다. 에러메시지가 없다면 rlang을 설치하지 않아도 됩니다.
프로그램 설치
Просмотров 6213 года назад
R로 하는 왕초짜를 위한 머신러닝 두 번째 영상으로 윈도우 환경설정 변경과 프로그램 설치에 대한 내용입니다. 민감하고 엄청난 분석이 가능한 프로그램이라 설치도 제법 깐깐합니다. 영상을 보면서 필요할 때 일시정지 버튼을 클릭한 후 따라하면서 윈도우 설정도 바꾸고 프로그램도 설치하면 좋을 것 같습니다.
스웨덴은 집단면역에 성공(?)했나? 스웨덴, 우리나라, 일본의 비교
Просмотров 2,5 тыс.4 года назад
스웨덴은 집단면역에 성공(?)했나? 스웨덴, 우리나라, 일본의 비교
코로나 19 관련 통계 (미국과 일본의 코로나 19 확진자 수 예측)
Просмотров 4684 года назад
코로나 19 관련 통계 (미국과 일본의 코로나 19 확진자 수 예측)
우와 대단쓰
github에 자료가 없네요 어디서 다운 받나요
10:27 상관관계 분석
혹시 readxl 또는 openxlsx 함수로 엑셀파일을 불러오려는데.. 계속 같은 파일만 불러와집니다. 현재 컴퓨터에 없는 파일인데 무슨 버그가 걸렸는지 옛날 파일만 불러오기 되는데.. 이유가 뭘까요? ㅜㅜ R studio를 지웠다 깔아도 그렇고 해결이 안되고 있습니다. 원래 잘 사용했는데 갑자기 버그가 걸렸네요..
R 세션 또는 RStudio의 캐시가 문제를 일으킬 수 있습니다. RStudio를 완전히 종료한 다음 다시 시작해 보세요.
프로젝트 만들고 파일을 불러오는 과정이 명확하게 이해되었습니다! 감사합니다!
8.56 데이터와 관찰이론의존
안녕하세요~ 스포츠유니폼 판매하는 서폿츠라고 합니다. 문의가 있습니다. 저희가 디자인 한 번호체를 코딩해서 한글, 파워포인트,일러스트 같은 프로그램에서 타자를 이용해서 사용 할 수 있게 만들고 싶은데 가능할까요?
폰트 등록은 R에서 안 되는 것 같습니다. 다른 쪽으로 알아보셔야할 것 같아요. ㅠㅠ
R생초짜입니다. 최근 버전으로 다운받아 하나씩 해보고 있는데요 다운받은 자료를 오픈 프로젝트 하는 부분부터 막혔습니다ㅜ 콘솔에 R버전만 표시되고 파일경로가 뜨지 않는데 어떤 오류인지 알수가 없어서요
작업폴더 설정이 안 되어 있기 때문인 것 같습니다. File -> New Project 해서 새로운 프로젝트를 만드세요. 그리고 그 프로젝트(디폴트는 내문서 하위 폴더)에 다운 받은 파일을 넣고 코드를 돌려 보세요. ^^
ezpickr가 설치 안돼서, library(readxl) data <- read_excel("파일경로", sheet = "sheet이름") dt <- as.data.frame(data) 로 하고 진행하니 문제 없습니다
안녕하세요 학교에서 교양 과제로 영상 만드는 중인데 이 동영상 약간의 부분을 자료로 사용해도 될까요? 감사합니다
물론입니다. ^^
df_1 <- read.csv('c:/projects/textbook/customer5.csv') 맨 마지막 파일을 불러오려고 합니다. 혹시 경로 설정을 잘못한 것일까요? Error in file(file, "rt") : cannot open the connection In addition: Warning message: In file(file, "rt") : cannot open file 'data/data01.csv': No such file or directory 이런 에러 메세지가 뜹니다.
답변이 늦었네요. 해당 경로에 파일이 없어서 에러 메시지가 났네요. 상대 경로(data/data01.csv와 같은 형식)로 하실려면 프로젝트를 만드시고 해당 프로젝트 밑에 data 폴더를 만들어서 관리해야 합니다. 그렇지 않은 경우 절대 경로(c:/projects/textbook/customer5.csv와 같은 형식)으로 데이터를 불러 올 수 있습니다. read.csv를 실행시킬 때는 해당 폴더에 파일이 있는지 꼭 확인하셔야 합니다.
교수님 리커트 척도는 summary 로 정확한 값이 나오는데 성별/ 구매사유 등과 같은 한글값은 나오지 않습니다. length , character 등등 으로 나오네요.ㅠㅠ 그래서 일단 table로 값을 만들긴 했는데... 혹시 해결방법이 있을까요?
summary(as.factor(data$성별)) 로 해보세요. character 속성 때문에 나타나는 현상입니다. factor로 바꿔주면 제대로 나타날거예요. ^^
정리가 다 된 데이터를 어떻게 엑셀 파일로 추출 할 수 있을까요? Rdata 확장자로 저장된 파일은 엑셀에서 인식이 안됩니다 ㅠㅠ
xlsx 패키지에서 데이터를 엑셀로 저장하는 함수가 있습니다. xlsx::write.xlsx(data, "data.xlsx")
안녕하세요 선생님. 좋은 자료 감사합니다. ^^ 영상에서 "p값이 0.05보다 작은것이면 벤포드법칙을 따르지 않는 것이다." 라고 하셨는데 그 이유가 궁금합니다. 가설검정을 했을때, p값이 0.05보다 작다는 것이면 귀무가설을 기각한 것이고 대립가설을 채택한 것인데.. 가설검정의 대립가설이 "기생충의 흥행수입 숫자 분포가 벤포드 법칙의 분포와 차이가 있다" 라고 한 것인지요?? (즉, 귀무가설이 "벤포트 법칙의 분포와 차이가 없다" 인것인지요?)
Error: ‘path’ does not exist: ‘data.xlsx’ 라고 계속 에러가 뜹니다 ㅜㅜ
동영상 감사합니다. 그룹도 여러개이고 선택할 수 있는 답변도 여러개일때 카이제곱 검정 및 사후 검정을 할 수 있나요?
안녕하세요. 강의 잘 보고 있습니다^^ 마지막 문자로 비교할 때, a와 b가 다른건 어떻게 확인하는건가요??
A group은 ab입니다. a나 b를 포함하고 있는 AB, B, O와는 통계적으로 유의한 차이가 없다고 해석할 수 있습니다. 반면에 AB와 B는 a로 표현됩니다. O는 b이구요. 이처럼 문자가 서로 다른 경우 통계적으로 유의한 차이가 있다고 해석할 수 있습니다.
코로나 통계는 전혀 안믿어요
코로나 통계는 전혀 안믿어요
카이자승... 사후분석.....ㅜㅜ 제가 배웠던 통계학에서는 존재하지 않는데요..x제곱 검정은 ..3집단 비교가 없는데요....제가 모르고 있을 수도 있기때문에... 한번 확인해주시길
rcompanion.org/rcompanion/b_05.html 참고하셔요. ^^ 유튜브에서 엑셀을 이용한 카이제곱 분석 사후분석 하는 방법 소개한 영상도 있고 SPSS에서의 사후분석 방법 영상도 있었던 것 같아요... ^^;
카이제곱으로 3집단 사후검정을 하는 것에 대해서 "SPSS"에서 지원하지 않는 이유가......있을 것 같은데요......제가 10년전에 배워서..통계학이......변한 것인지......혼란스럽네요. 참조해주신 링크는 암과 관련된 두 집단 독립성 검증으로 카이자승 검증(T검증도 가능)을 당연히 해야 하는 것이고.......카이자승 3집단 이상 사후검증은.......통계학에서 절대 해서는 안되는........것인데요....
깔끔하고 상세한 설명 감사드립니다 :) 응원할게요!!
안녕하세요, 선생님! 기억하실려나 모르겠지만 동대전고에서 선생님께 물리를 배운 차수현 입니다. 우연한 기회에 선생님 기사를 보고 여기까지 찾아오게 되었어요. 이렇게 유투브 강의로나마 뵙게되어 정말 좋네요! 😄😄
와우!!! 이렇게 기억해 주는 제자를 만나니 묘한걸? 거기다가 차수현이라면... 선생님 그림 그려주는 알바했던? 그 때 수현이가 그려줬던 그림들 가끔이지만 아직도 써먹고 있다. 언제고 선생님의 도움이 필요하면 연락해. 특히 데이터 분석이라면 꽤 도움이 될 수도 있다. ^^
@@데이터의길 아직까지 제 작업물(?)이 쓰인다니.. 영광이기도 한데 고대유물같은 느낌이 들기도 하네요! 다음에 대전에 가면 선생님 한 번 찾아 뵈어야겠어요 😄 데이터마이닝 예습하고 가야될려나요ㅎㅎ 기억해주시고 리플남겨주셔서 감사합니다 선생님! 😁
@@suhyuncha 데이터 마이닝이 뭔지만 알아도... 대전 오면 맛있는 거 사줄께... ^^
@@데이터의길 선생님, 다른 댓글에 보니 메일이 있어서 그리로 메일 하나 보내드렸습니다 🙂
@@suhyuncha 오오... 카톡 대회 전처리... ^^
처음에 옵션 설정 정말 감사합니다. UTF-8으로 안되던게 해결되었어요!
library(readxl) > rdata <- read_excel(path="CF1.xlsx",sheet=1) Error: Evaluation error: invalid multibyte string at '<ec><98><a4>. 9:05 로 넘어갈 때 이렇게 뜨는 에러는 뭘까요,,ㅠㅠ
여러 가지 문제로 이런 에러가 나서 확신할 수는 없지만 대체적으로 인코딩 문제 때문에 그럴 수 있습니다. 만약 인코딩 문제라면 readxl 패키지보다 xlsx 패키지를 이용해서 인코딩을 강제로 변형시켜서 불러 올 수 있습니다. 우선 xlsx 패키지를 설치하시고 다음의 코드로 데이터를 불러와 보세요. rdata <- xlsx::read.xlsx("CF1.xlsx", sheetIndex = 1, encoding="UTF-8")
@@데이터의길 감사합니다 !!!
재미있게 봤습니다^^
선생님 안녕하세요 K대학원 강의들었던 학부생입니다. 논문쓰다가 궁금해서 검색하니 본 영상과 선생님 사진이 나와 깜짝 놀랐습니다. 강의듣고나서 오래 지나서 지금은 다 까먹었는데 다시 들으니 기억이 새록새록 납니다. 감사합니다.
안녕하세요^^ 영상을 보면 유의수준 99.9%를 표시할때 * 세개가 삼각형 모양으로 배치되어 있는데 어떻게 입력하신 건지 알 수 있을까요??
4분 10초 부분에 해당하는 코드가 통계적 유의도에 따라 *표가 나타나게 한 것입니다. ^^
안녕하세요. github에서 스크립트를 다운받아서 열었는데 R에서 한글 글씨가 깨지네요. text encoding을 EUC-KR나 UTF-8로 바꿨는데도 나아지지가 않습니다. 해결방법이 있을까요?
UTF-8로 설정한 후 해당 스크립트를 열면 안 깨질거예요. 혹 그래도 깨지만 RStudio를 껐다가 사시 켜는 방법(물론 그 전에 스크립트 닫고)도 있고 그래도 깨지면 file메뉴에서 Reopen with Encoding.. 메뉴를 눌러서 UTF-8로 설정하시면 반드시 깨지지 않는 스크립트를 보실 수 있을 거예요. text encoding은 UTF-8이 답입니다. ^^
@@데이터의길 해결했습니다. 감사합니다!!!
왕초짜 머신러닝 완강했네요^^ 감사합니다.
축하합니다. 그래도 한 번은 머신러닝을 돌려 보신 거예요. ^^ 이제 자신만의 데이터로 몇 번 더 돌려보다보면 재밌는 결과를 얻을 수도 있고 더 궁금한 점이 생기기도 할 거예요. 그 궁금증을 해결하면서 하나 둘 더 배워가다보면 어느 순간 전문가가 되어 있을 거예요. ^^
질문하나드려도 될까요? p와 헷갈리게끔 a를 잡았는데 그러면 a와 v도 서로 반비례 관계인가요?? 아니면, mutate(v=round(0.0825*t/p, 1) 에서 v는 t,p와만 관련 있으므로 a와 v는 아무런 관련이 없는 건가요?
네. a와는 아무 관련이 없습니다. v는 t와 p에 의해서만 값이 결정되도록 했고 소수 첫째 자리에서 반올림 하여 약간의 불확실성을 주었어요. ^^
@@데이터의길 감사합니다~!
안녕하세요. 질문이 있어 댓글 남깁니다. predict(fit_rf, test) %>% plot(test$성능)를 입력했더니 Error in plot.new() : figure margins too large 라는 에러가 뜨는데 뭐가 잘못된 걸까요?
설치 문제는 잘 해결 됐나 보네요... 다행입니다. ^^ datamod.tistory.com/32 참고하셔서 그림이 그려질 창의 크기를 조금 더 크게 만들면 됩니다. 코드 입력하는 곳과 그림이 그려지는 곳 사이에 있는 줄(bar)을 클릭한 후 드래그해서 좌우로 움직여서 그림이 그려지는 곳의 크기를 크게 키우면 됩니다. 적절하게.. ^^
@@데이터의길 네 설치 문제는 해결됐습니다~ 간단히 해결할 수 있는 에러네요 감사합니다!
올려주신 깃헙 주소로 들어가니 오류가 뜹니다 ㅠㅠ 확인부탁드립니다
github.com/cysics/ML_for_beginners 한 번 더 시도 부탁드립니다. ^^
@@데이터의길 넵 보내주신 주소로 들어가니 되네요 감사합니다!
안녕하세요. 질문있습니다! Warning message: In normalizePath(path.expand(path), winslash, mustWork) : path[1]="C:/Users/???/Documents": 파일 이름, 디렉터리 이름 또는 볼륨 레이블 구문이 잘못되었습니다 말씀해주신대로 설치를 잘 했는데 이런 식으로 메세지가 뜹니다. 아마 폴더경로상에 한글이 있어서 그런것 같은데 경로를 바꿔주어야 하나요?
컴퓨터 이름이 한글로 되어 있어서 그렇습니다. R과 RStudio를 설치하기 전에 컴퓨터 이름 등을 영문으로 바꾸어 주어야 하는데 그렇지 않아서 그래요. 싹다 지우고 컴퓨터 이름부터 영문으로 바꾸고 난 후 다시 설치(강추)하거나 컴퓨터 환경변수를 임의로 조작해서 사용할 수도 있습니다. data-make.tistory.com/28 참고하셔서 설치하신 R 디렉토리 잘 찾아서 환경변수를 설정해주면 됩니다. (복잡...)
@@데이터의길 영상에 나와 있는 것처럼 윈도우 계정과 컴퓨터 이름을 모두 영어로 바꾸어 보았는데, user 폴더 안에 제 이름 세글자(한글)인 폴더가 그대로 있습니다. 제 노트북이 윈도우 정품 인증을 따로 안 했는데 그것때문에 그런걸까요?
@@swj7749 www.tabmode.com/windows10/win10-user-name-change.html 위 사이트 참고하시면 user의 사용자 이름을 영문으로 바꿀 수 있을 거예요. 화이팅요. ^^
@@데이터의길 빠른 답변 감사합니다!!
딱지 대회 내일인데 쓸고 오겠습니둥
후기 부탁드립니다. ^^
선생님 연수 듣고 한번 따라해 봅니다. 나도 데이터 분석을 할 수 있을지... 자막이 있어 편하네요. 세심한 배려에 감사합니다!
따라하다가 궁금한 점이 생기면 언제든지 댓글로 질문해 주세요. 하나 하나 다 해결해 드리겠습니다. ^^
좋은 강의 감사해요! 목소리 너무 좋으셔서 강의가 귀에 쏙쏙 들어오네요 ㅎㅎ
안녕하세요 선생님 컴맹인 제가 급하게 r로 회귀분석해야할 일이 생겨서 듣게되었습니다 좋은강의 감사합니다 다름이 아니라 ezpickr설치후부터 제 console에는 파일이름 디렉터리 이름 볼륨에이블 구문이 잘못되었다고 뜨고선 그 후로 강의영상 따라서 코드입력하고 run 눌러도 에러라고 뜹니다 ㅠㅠ 혹시 왜 이런지 알 수 있을까요 ? 🙏🏻🙏🏻
ezpickr 패키지가 웬만한 모든 종류의 데이터를 다 불러올 수 있다는 장점이 있어서 이를 소개해 드렸던 건데, 관리가 안 되는 것 같습니다. R을 비롯한 다른 패키지들이 업데이트 되는 것에 맞춰서 ezpickr도 업데이트 해줘야 하는데 그렇지 않다보니 에러가 나는 것 같아요. library(readxl) read_excel("파일명로 및 파일명.xlsx") 위 코드로 엑셀 파일 불러와서 분석하면 될 것 같습니다. ^^
고맙습니다 덕분에 학교에서 친구들 딱지를 다 따먹엇어요~!^_^
와우!!! 이론을 알아도 실천하기 쉽지 않은데 정말 대단한 것입니다. ^^
r 좋은 강의 들었습니다. 감사합니다.
R의 활용도가 이렇게 높군요. 금방 분석해서 자신을 위한 피드백 도구로 사용하기에도 좋은 도구임을 알게 되었습니다. 감사합니다.
왕초짜를 위한 머신러닝 강좌가 끝난 후 설문 데이터 분석을 위한 강좌도 생각중입니다. 사실 지난 여름에 이미 선생님들 대상으로 줌 연수를 한 바 있어 교육과정은 어느 정도 짜진 상태죠. 최대한 빨리 왕초짜를 위한 머신러닝 마치고 난 후 겨울방학 전에 설문 데이터 분석(역시 매우 쉽게) 영상 제작해서 올리겠습니다. 많이 애용해 주세요. ^^
너무 이해하기 쉽게 설명해주셔서 초보도 금방 알아들을 수 있네요. 감사합니다.
코딩을 배워본 적이 없는 분들도 따라해서 머신러닝 돌릴 수 있도록 열심히 돕겠습니다. ^^
선생님의 영상을 다시보게되어 기쁩니다. 유튜브 알고리즘 오늘 일 제대로 하네요.
감사합니다. 진짜 한 번도 코드를 배워본적이 없는 분들도 따라하면서 몇 줄 코드만 작성하면 머신러닝을 돌릴 수 있도록 열심히 영상 만들어 올리겠습니다.
선생님, 한번 설치한 패키지는 제가 다른 프로젝트를 작성하더라도 제 컴퓨터 상에서 계속 유효한 것인가요? 아니면 프로젝트를 생성할 때마다 필요한 패키지를 계속 설치해 주어야 하는지요?
컴퓨터에 한 번 설치하면 모든 프로젝트에서 해당 패키지를 다 사용할 수 있습니다. ^^
@@데이터의길 감사합니다^^
잘 보았습니다. 과제집착력이 성적과 상관관계가 높네요. 디데일한 부분이 수행평가에서는 중요하게 다루어질 수 있을 것 같아요. 좋은 강의 감사합니다.ㅣ