반응형

 

 

 

1. 회귀 소개

회귀분석 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 기법

ex) 사람의 키는 평균 키로 회귀하려는 경향을 가지고 있어서 세대가 지날 수록 평균 키가 커지는 것

선형 회귀식 Y = W1X1 + W2X2 + W3X3 + ... WnXn

Y는 종속 변수 , X1,X2, ... Xn 은 독립변수 , W1,W2, ... Wn 은 독립변수 값에 영향을 미치는 회귀계수

→ 머신러닝 회귀 예측의 핵심은 주어진 피처 ( 독립변수 ) 와 결정 값 ( 종속변수 ) 데이터 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것이다.

 

지도학습 유형

  1. 분류 → 예측값이 이산형 클래스 값(카테고리 같은)
  2. 회귀→ 예측값이 연속형 (숫자값 같은)
  • 선형회귀

회귀중에서 선형 회귀가 가장 많이 사용된다. 선형회귀는 실제 값과 예측 값의 차이 ( 오류의 제곱 값)를 최소화 하는 직선형 회귀선을 최적화하는 방식이다.

  1. 일반 선형 회귀
  2. 릿지
  3. 라쏘
  4. 엘라스틱넷
  5. 로지스틱 회귀

2. 단순 선형 회귀

  • 단순 선형 회귀

→ 독립변수도 하나, 종속변수도 하나인 선형회귀

 

→ 주택 가격이 주택의 크기로만 결정 된다고 할 때!

 

→ 실제 값과 회귀 모델의 차이에 따른 오류 값 : 잔차

→ 최적의 회귀 모델은 전체 데이터의 잔차의 합이 최소가 되는 모델을 만든다는 의미

 

→ 잔차에는 +,- 값이 있기 때문의 절댓값을 취하거나 위사진처럼 제곱의 값을 구해서 더하는 방식 (RSS) 을 취한다.

 

→ 회귀에서 이 RSS 는 비용(cost) 이며, 이 w변수로 구성되는 RSS를 비용함수라고 한다.

비용함수를 손실함수 (loss function) 라고도 하며, 머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값( 즉, 오류값) 을 지속해서 감소시키고 최종적으로는 더 이상 감소하지 않는 최소의 오류 값을 구하는 것이다.

3. 경사 하강법

경 사 하강법은 W파라피터가 많을 때 '점진적으로' 반복적인 계산을 통해 W 파라미터 값을 업데이트하면서 오류값이 최소가 되는 W파라미터를 구하는 방식

ex) 최초 오류 값이 100이었다면 두 번째 오류 값은 100 보다 작은 90, 세 번째는 80 과 같은 방식으로 지속해서 오류를 감소시키는 방식으로 W 값을 계속 업데이트 → 오류값이 더 이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고 그 때의 W 값을 최적 파라미터로 반환

 

→ 미분된 1차함수의 기울기가 감소하지 않는 지점을 비용 함수가 최소인 지점으로 간주하고 그 때의 w 를 반환

 

→ (실제값-예측값)의 제곱의합의 평균을 계산한 후에 w1 에 대해, w0 에 대해 각각 편미분

 

→ 새로운 w1 = 이전 w1 - (w1에서 편미분한 결괏값)

→ 위 편미분 값이 너무 클 수 있기 때문에 보정 계수를 곱한다 =이를 '학습률' 이라한다.

반응형

+ Recent posts