AI-LAB/Ai 머신러닝,딥러닝

[딥러닝 개념] AUC 성능지표

JS LAB 2023. 6. 24. 23:25
728x90
반응형

이진 분류기 성능을 평가하는데 널리 사용되는 AUC 성능지표

 

이진분류기(binary classifier)는

 

양성과 음성 ,

1과 0,

+와 -,

앞과 뒤

 

같은 두 가지의 클래스를 분류하는 분류기를 뜻함

 

이진 분류기의 성능을 평가하는데 사용되는 것 중

 

하나의 지표가 AUC(Area Under the ROC curve)

 

AUC는 ROC 곡선 아래 부분의 넓이로 해석

 

ROC 곡선이란?!

ROC (Receiver Operation Characteristic Curve) 

우리말로 수신자 판단 곡선

 

ROC 곡선과 이에 기반한 AUC 스코어는

이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표

ROC 곡선은 FPR (False Positive Rate) 이 변할 때 

TPR (True Positive Rate) 이 어떻게 변하는지를 나타내는 곡선


TPR = True Positive Rate = 재현율 = 민감도
민감도는 실제값 Positive가 정확히 예측돼야 하는 수준을 나타냄 

(질병 있는 사람을 질병있다고 양성판정 )


TNR = True Negative Rate = 특이성
특이성은 실제값 Negative가 정확히 예측돼야 하는 수준을 나타냄 

(질병 없는 사람을 질병없다고 음성판정)

 

x축 True Positive Rate (TPR)

y축 False Positive Rate (FPR)

 

가운데 직선은 ROC 곡선의 최저 값

 

왼쪽 하단과 오른쪽 상단을 대각선으로 이은 직선은 이진 분류의 ROC
직선(AUC=0.5)


ROC 곡선이 

가운데 직선에 가까울수록 성능이 떨어지는 것이며, 

멀어질수록 성능이 뛰어난 것


FPR을 0부터 1까지 변경하면서

TPR의 변화 값을 구합니다.

 

 

Confusion Matrix

 

 

 

 

왜 넓이가 좋을수록 이진 분류기의 성능이 좋은 것일까?

 

TPR은 전체 양성 샘플 중 양성으로 예측된 샘플의 비율이므로

 

높을수록 좋다

 

하지만

 

FPR은 전체 음성 샘플 중 음성으로 예측된 샘플의 비율이므로

 

낮을수록 좋다

 

따라서 FPR이 낮을수록 TPR이 천천히 감소한다면,

 

좋은 성능이라고 할 수 있다

 

AUC가

 

0.8 이상이면 매우 좋은 성능

 

0.7~0.8 좋은 성능

 

0.5~0.7 적당한 성능

 

0.5 이하 쓸모 없는 성능

 

 

F1 - score

 

 

Recall과 Precision 의 조화평균

 

0~1 사이의 값을 가짐

 

1에 가까울수록 좋다

 

산술평균이 아니라 

 

조화평균을 사용하는 이유는

 

두 지표(Precision, Recall)을 

 

모두 균형있게 반영하기 위함

 

Accuracy 와 달리 

 

데이터가 불균형할 때도 사용하기 좋음

728x90
반응형