부트스트랩핑 역시 오버샘플링에 이용할 수 있습니다. 하지만 보통 부트스트랩핑은 데이터가 특정 확률분포를 따른다는 가정이 없을 때 다수의 부트스트랩핑 샘플들을 생성하여 confidence interval 계산 등 통계추론에 많이 이용됩니다. Random forests와 같은 앙상블 모델에도 사용되구요.
안녕하세요 교수님, 강의 항상 잘 보고 있습니다. Borderline SMOTE 와 ADASYN 관련해서 질문이 있습니다. 1. Borderline SMOTE 같은 경우, 주위의 KNN 데이터가 모두 다수 클래스인 경우 "noise" 취급하고, 이를 통해 합성데이터를 생성하지 않습니다. 2. ADASYN 같은 경우, 주위의 KNN 데이터가 모두 다수 클래스인 경우, r 값은 1이 되고 가중치는 높아집니다. 즉, Borderline SMOTE에선 제외되는 노이즈로 분류되어 합성 데이터 생성에 제외되는 데이터들이 ADASYN에선 가장 높은 생성 가중치를 갖게 되는 셈이죠. 이와 같이, ADASYN 알고리즘은 너무 노이즈에 치중된 데이터를 많이 생성하게 되는 단점이 있는 것 같은데, 이에 대한 보완책으론 어떤 것이 있는지 말씀해주실 수 있나요?
지나가다 보고 관련 공부를 하는 입장이라서 답글 남기게 됐습니다. 우선 ADASYN, Borderline SMOTE와 반대로 Safe-level SMOTE라고 해서 오히려 safe area에 있는 데이터에 대하여 오버샘플링하는 경우도 있습니다(오히려 new data가 danger, noise일때 분류성능이 떨어진다는 단점이 있습니다). Radial-based oversampling이라는 방법이 어떻게 보면 @minwukim4740님께서 언급하신 단점에 대한 보완책이지 아닐까 싶습니다. 다만, SMOTE류 방법론에서 나오는 linear interpolation을 이용하지는 않습니다. Safe, Danger를 고려한다는 것은 결국 두 class간의 overlap문제를 고려한다는 것과 비슷합니다. 따라서 최근에는 class overlap 문제를 해결하는 것에 초점을 두는 방법론들도 나오고 있습니다.
감사함을 전하고 싶은데 댓글을 쓰는 방법 밖에 없어 이렇게 댓글을 씁니다. 교수님 덕에 논문 쓸때 정말 도움 많이 되었습니다. 정말 감사합니다 교수님!
도움이 되셨다니 저도 기쁜 마음입니다.
스터디하면서 공부하고 있는데 교수님 강의들이 정말 많이 도움이 되고 있습니다! 이런 강의를 올려주셔서 감사합니다!!
감사합니다!
불균형 주제로 논문 쓰려는 학생입니다. 오늘은 글 읽기 힘들었는데 ㅜ때마침 이 영상이 있어서 복습을 할 수 있었습니다!
borderline smote 넘 잘 설명주셔서 많은 도움이 되었습니다!! 감사합니다 교수님
감사합니다!
잘 들었습니다. 정말 감사합니다ㅠㅠ 염치 불고하고 앞으로도 계속 좋은 강의 기다리겠습니다!!
감사합니다!
강의 너무 잘 듣고 있어서 감사하다는 말씀이라도 드려야겠다는 생각에 리플 남깁니다. 감사합니다!
답변이 늦었습니다. 강의 잘 듣고 계시다니 저도 기쁩니다. 감사합니다.
교수님 번창하세요.
감사합니다!
너무 알차고 좋은 강의네요 감사합니다.
감사합니다!
교수님, 또 공부하러 왔습니다^^ 감사합니다~!!
감사합니다!
데이터 불균형 때문에 고민이 많았는데 많은 도움이 되었습니다.
도움이 되셨다니 기쁩니다. 감사합니다.
교수님 수업정말 잘 들었습니다! 강의 수강 후 적용하기위해 사이킷런의 imblearn을 설치 후 smote 등 import하려했지만 지속적은 오류가 뜹니다. 혹시 이에 대한 해결책이나 다른 방안 추천해주시면 정말 감사드리겠습니다.
글쎄요. 위의 말씀으로만으로는 어떤 상황인지 정확히 알 수가 없네요...
교수님 정말 감사드립니다! 큰도움이 되는 강의입니다
한가지 헷깔리는것이 있는데,
부트스트랩핑은 불균형 데이터 처리를 위한 샘플링 범주에 포함이 안되는것인지요?
부트스트랩핑 역시 오버샘플링에 이용할 수 있습니다. 하지만 보통 부트스트랩핑은 데이터가 특정 확률분포를 따른다는 가정이 없을 때 다수의 부트스트랩핑 샘플들을 생성하여 confidence interval 계산 등 통계추론에 많이 이용됩니다. Random forests와 같은 앙상블 모델에도 사용되구요.
@@김성범교수산업경영공 감사합니다 교수님! 한가지만 더 여쭙고 싶은데 이미지데이터 불균형처리시는
SMOTE 나 부트스트랩핑 모두 사용이 가능한것입니까?
안녕하세요 교수님, 강의 항상 잘 보고 있습니다. Borderline SMOTE 와 ADASYN 관련해서 질문이 있습니다.
1. Borderline SMOTE 같은 경우, 주위의 KNN 데이터가 모두 다수 클래스인 경우 "noise" 취급하고, 이를 통해 합성데이터를 생성하지 않습니다.
2. ADASYN 같은 경우, 주위의 KNN 데이터가 모두 다수 클래스인 경우, r 값은 1이 되고 가중치는 높아집니다. 즉, Borderline SMOTE에선 제외되는 노이즈로 분류되어 합성 데이터 생성에 제외되는 데이터들이 ADASYN에선 가장 높은 생성 가중치를 갖게 되는 셈이죠.
이와 같이, ADASYN 알고리즘은 너무 노이즈에 치중된 데이터를 많이 생성하게 되는 단점이 있는 것 같은데, 이에 대한 보완책으론 어떤 것이 있는지 말씀해주실 수 있나요?
지나가다 보고 관련 공부를 하는 입장이라서 답글 남기게 됐습니다.
우선 ADASYN, Borderline SMOTE와 반대로 Safe-level SMOTE라고 해서 오히려 safe area에 있는 데이터에 대하여 오버샘플링하는 경우도 있습니다(오히려 new data가 danger, noise일때 분류성능이 떨어진다는 단점이 있습니다).
Radial-based oversampling이라는 방법이 어떻게 보면 @minwukim4740님께서 언급하신 단점에 대한 보완책이지 아닐까 싶습니다. 다만, SMOTE류 방법론에서 나오는 linear interpolation을 이용하지는 않습니다.
Safe, Danger를 고려한다는 것은 결국 두 class간의 overlap문제를 고려한다는 것과 비슷합니다. 따라서 최근에는 class overlap 문제를 해결하는 것에 초점을 두는 방법론들도 나오고 있습니다.
@@yangddo 오 한 번 찾아봐야겠네요. 감사합니다!
교수님 수업 잘 듣고 있습니다! 다름이 아니라 설명해주신 방법을 사용 시, 변수가 많은(고차원) 데이터에서 사용해도 문제가 없는지 궁금합니다.
감사합니다
감사합니다 ~
교수님 강의 공개해 주셔서 정말 감사합니다! 혹시 ppt 자료를 어디서 찾아 볼 수 있는지 알 수 있을까요?
감사합니다. ppt 자료는 몇 가지 이유로 현재 공개하고 있지 않은 점 양해 바랍니다.