분류에 대한 작업을 시행할 경우 우리는 항상 모델의 성능에 대한 관점이 명확하길 바라고 있다.
하지만 언제나 많은 Machine Learning, Deep Learning 에 대한 정확한 판단에 기준을 갖을 수 있는 관점을 제시하는 정리는 존재하지 않는다.
간단한 모델의 성능의 유효성을 평가할 수 있는 지표를 제시한다. 절대적인 지표가 되지는 않겠지만, 모델 설정에 도움을 줄 수 있다.
Precision : 예측 값이 1인 경우, 실질 값이 1인 비율
Recall : 실질 값이 1인 경우, 예측 값 또한 1인 비율
F1 - score : Precision 과 Recall 은 Trade - off 관계이다. 하지만 특정 값 하나를 기준으로 설정하는 것에는 무리가 있기에 하나의 지표로 이 두 값을 이용하여 성능 지표를 제시할 수 있다.
F - measure 에서 나온 개념이다. (자세한 것은 pdf 참조)
Precision , Recall 의 Harmonic Mean
Fall - Out : 실제 y = 0 중에서 예측 값이 1인 경우
ROC (Receiver Operating Characteristic) Curve
여러 임계값을 기준으로 Recall - Fall Out 의 변화를 시각화한 지표이다.
X축 - Fall out, Y축 - Recall
ROC curve 는 왼쪽 모서리에 치우치는 경우 보다 좋은 모델이라고 해석 가능하다.
왼쪽 모서리에 치우치는 경우 해석해보면 Fall out 에 비해 Recall 이 큰 경우이다.
AUC (Area Under Curve)
ROC Curve 로는 명확한 수치값을 제공받을 수 없기 때문에 우리는 직접적인 값에 대한 비교를 위하여 ROC Curve 의 면적 값을 구하여 사용한다. 최대값을 물론 1이며 1에 가까운 값을 갖을수록 보다 좋은 모델이라고 할 수 있다.
'MachineLeaning' 카테고리의 다른 글
Linear Discriminant Analysis (LDA) & QDA (0) | 2021.08.30 |
---|---|
K - Nearest Neighbor (0) | 2021.08.30 |
Naive Bayes (1) | 2021.08.29 |
Classification - Logistic Regression (0) | 2021.08.28 |
Regression - Linear Regression (선형회귀) (0) | 2021.08.28 |