반응형

 

오차 행렬

불균형한 레이블 데이터 세트에서 예측할 때 발생할 수 있는 한계점을 극복하기 위한 방법 중 하나

 

위 네개의 값을 조합해 Classifier의 성능을 측정할 수 있는 주요 지표인 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 값을 알 수 있다.

  • 정확도 = 예측 결과와 실제 값이 동일한 건수 / 전체 데이터 수 (TN + TP) / (TN + FP + FN + TP)
  • 정밀도 = 예측을 P로 한 대상중에 예측과 실제값이 P로 일치한 데이터의 비율 TP / (FP + TP)
  • 재현율 = 실제 값이 P인 대상 중에 예측과 실제 값이 P로 일치한 데이터의 비율 TP / (FN + TP)

분류하려는 업무의 특성상 정밀도 또는 재현율이 특별히 강조돼야 할 경우, 분류의 결정 임곗값을 조정해 정밀도 또는 재현율의 수치를 높일 수 있다.

그러나 둘은 상호 보완적인 지표기 때문에 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽다.

일반적으로 이진 분류에서는 예측의 임곗값을 50%로 정한다.

그러나 임계값을 떨어트리면 정밀도는 떨어지고 재현율이 올라간다.

아래는 임곗값 변화에 따른 평가 지표이다.

 

F1 스코어

정밀도와 재현율을 결합한 지표

 

recall = 재현율

precision = 정밀도

ROC 곡선과 AUC

ROC 곡선 (Receiver Operation Characteristic Curve)은 FPR(False Positive Rate)이 변할 때 TPR(True Positive Rate, 재현율/민감도)이 어떻게 변하는지를 나타내는 곡선

TNR = TN / (FP + TN)

FPR = FP / (FP + TN) = 1 - TNR = 1 - 특이성

 

ROC 곡선이 가운데 직선에 가까워질수록 성능이 떨어지는 것

분류 결정 임곗값을 이용하여 FPR을 0부터 1까지 변경하며 TPR의 변화 값을 구함으로써 ROC 곡선을 구할 수 있다.

ex) FPR을 0으로 만들려면 임곗값을 1로 지정

roc_curve() API 이용

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

 

 

기계학습의 분야


 

 

 

 

binary classification

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

 

 

 

 

L1 regularization(Lasso)


 

 

중요하지 않은 베타를 0으로 만들어 모델의 복잡성을 줄인다.

몇 개의 중요한 변수만 선택하기 때문에 정보 손실과 모델의 정확성이 떨어질 가능성이 있다.

계산은 비교적 빠르다.

 

 

 

L2 regularization(Ridge)


중요하지 않은 베타를 0에 가깝게 한다.

 

 

 

Elastic net


L1 + L2 적용 비율을 조정하여 구현

 

 

 

 

 

 

 

 

 

RSS(Residual Sum of Square)


오차들의 단순 제곱합

직관적 해석

입력값의 크기에 의존

 

 

 

 

 

 

MSE(Mean Squared Error)


평균 제곱 오차

RSS를 데이터의 수로 나눈 값이다.

작을수록 모델의 성능이 높다고 평가.

이상치에 민감하다.

입력값의 크기에 의존

 

 

 

MAE(Mean Absolute Error)


평균 절대값 오차

변동성이 큰 지표와 변동성이 작은 지표를 같이 평가할 때 좋다.

입력값의 크기에 의존

 

 

 

 

 

R square


1 - RSS / MSE

회귀모델의 설명력을 표현하는 지표이다.

입력값 크기에 의존하지 않음

0부터 1 사이의 값

1에 가까울수록 설명력이 높다.

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

[Tave 7기 캐글스터디] 정확도 측정 지표  (0) 2021.04.07
2장 분류  (0) 2021.02.18
과적합(Overfitting) 방지방법  (0) 2021.02.02
Regression  (0) 2021.02.02
Confusion Matrix  (0) 2021.02.02
반응형

 

 

 

 

과적합(Overfitting) 방지 방법

1. Cross validation

- 대부분 K-fold 교차 검증 방법을 사용한다.

 

1) K를 설정하여 데이터셋을 K개로 나눈다.

2) K개 중 한 개를 valid, 나머지를 훈련용으로 사용한다.

3) K개 모델의 평균 성능이 최종 모델의 성능이다.

 

 

 

2. Regularization

모델의 복잡성을 줄여 일반화된 모델을 구현하기 위한 방법이다.

모델 Bi에 패널티를 부여한다.(선형 회귀를 위한 정규화 : L1, L2 정규화)

 

 

- L1 정규화 (Lasso)

: 불필요한 입력값에 대응되는 Bi를 정확히 0으로 만든다.

 

- L2 정규화 (Ridge)

: 아주 큰 값이나 아주 작은 값을 가지는 이상치에 대한 Bi를 0에 가까운 값으로 만든다.

 

- 엘라스틱 넷

L1, L2 결합

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

2장 분류  (0) 2021.02.18
정규화 / 회귀 알고리즘 평가 지표  (0) 2021.02.03
Regression  (0) 2021.02.02
Confusion Matrix  (0) 2021.02.02
Supervised Learning / Unsupervised Learning  (0) 2021.02.02
반응형

 

 

 

 

 

 

 

회귀분석

: Loss function을 최소화하는 Gradient Descent를 통해 데이터를 가장 잘 설명할 수 있는 선을 찾는 것

 

 

단순 선형 회귀분석

: y = aX + b

입력값(X)이 한 개일 경우에만 사용이 가능하다.

두 변수 간의 직관적인 관계를 알아볼 때 사용한다.

 

 

 

 

다중 선형 회귀분석

: y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + ...

여러 개의 입력값 사이 간의 상관 관계*가 높을 경우 결과에 대한 신뢰성을 잃을 가능성이 있음

 

 

 

다항 회귀분석(Polynomial Regression)

: 1차 함수 선형식으로 표현하기 어려울 때, 다항 회귀분석을 이용한다. 

제곱이 될 수도 있고 세제곱이 될 수도 있고 다양하게 식이 전개될 수 있다.

 

-> 과적합 문제가 발생할 수 있음

 

 

반응형
반응형

 

 

 

Confusion Matrix

: 분류 모델의 성능을 평가하는 지표이다.

 

 

 

확률 행렬

: 혼동행렬의 값을 확률로 정규화한 행렬

 

 

 

 

기대손익 구하기


 

 

 

 

 

 

타켓 마케팅에 대한 기대손익 예시


 

 

 

 

 

 

머신러닝 관점에서 정확도가 높고,

 

비즈니스 관점에서 기대손익이 높은 모델을 최종적으로 선택한다.

 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

과적합(Overfitting) 방지방법  (0) 2021.02.02
Regression  (0) 2021.02.02
Supervised Learning / Unsupervised Learning  (0) 2021.02.02
Data preprocessing & Feature engineering  (0) 2021.02.01
Regularization  (0) 2021.01.27

+ Recent posts