[ML] Classification - SMOTE
SMOTE SMOTE는 불균형 데이터 세트를 사용할 때 발생하는 문제를 해결하는 머신러닝 기법이다. 불균형 데이터는 관측된 빈도가 범주형 변수의 서로 다른 가능한 값에 걸쳐 매우 다른 데이터이다. 아래 그림은 불균형 데이터의 예시이다. 위 그림으로 예를 들어보면, 30명의 웹사이트 방문자 중 20명은 스키어이고 10명은 등산가이다. 우리는 방문객의 구매 여부를 예측할 수 있는 기계 학습 모델을 구축하려고 한다. "안 산다"를 예측하는 모델은 30건 중 28건이 맞다. 이 모델은 93%의 정확도를 갖는다. 불균형 데이터를 사용하여, 우리는 실제로는 쓸모가 없지만 매우 정확하게 보이는 모델을 만들게된다. 이러한 불균형 데이터의 문제를 해결하기 위한 3가지 방법이 있다. 1. Undersampling 데이터 ..
machine learning
2022. 12. 16. 09:16