[Tave 7기 캐글스터디] 단순선형회귀, 경사하강법

Nolja놀자 2021. 4. 7. 10:46

2021. 4. 7. 10:46

1. 회귀 소개

회귀분석 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 기법

ex) 사람의 키는 평균 키로 회귀하려는 경향을 가지고 있어서 세대가 지날 수록 평균 키가 커지는 것

선형 회귀식 Y = W1X1 + W2X2 + W3X3 + ... WnXn

Y는 종속 변수 , X1,X2, ... Xn 은 독립변수 , W1,W2, ... Wn 은 독립변수 값에 영향을 미치는 회귀계수

→ 머신러닝 회귀 예측의 핵심은 주어진 피처 ( 독립변수 ) 와 결정 값 ( 종속변수 ) 데이터 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것이다.

지도학습 유형

분류 → 예측값이 이산형 클래스 값(카테고리 같은)
회귀→ 예측값이 연속형 (숫자값 같은)

선형회귀

회귀중에서 선형 회귀가 가장 많이 사용된다. 선형회귀는 실제 값과 예측 값의 차이 ( 오류의 제곱 값)를 최소화 하는 직선형 회귀선을 최적화하는 방식이다.

일반 선형 회귀
릿지
라쏘
엘라스틱넷
로지스틱 회귀

2. 단순 선형 회귀

단순 선형 회귀

→ 독립변수도 하나, 종속변수도 하나인 선형회귀

→ 주택 가격이 주택의 크기로만 결정 된다고 할 때!

→ 실제 값과 회귀 모델의 차이에 따른 오류 값 : 잔차

→ 최적의 회귀 모델은 전체 데이터의 잔차의 합이 최소가 되는 모델을 만든다는 의미

→ 잔차에는 +,- 값이 있기 때문의 절댓값을 취하거나 위사진처럼 제곱의 값을 구해서 더하는 방식 (RSS) 을 취한다.

→ 회귀에서 이 RSS 는 비용(cost) 이며, 이 w변수로 구성되는 RSS를 비용함수라고 한다.

비용함수를 손실함수 (loss function) 라고도 하며, 머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값( 즉, 오류값) 을 지속해서 감소시키고 최종적으로는 더 이상 감소하지 않는 최소의 오류 값을 구하는 것이다.

3. 경사 하강법

경 사 하강법은 W파라피터가 많을 때 '점진적으로' 반복적인 계산을 통해 W 파라미터 값을 업데이트하면서 오류값이 최소가 되는 W파라미터를 구하는 방식

ex) 최초 오류 값이 100이었다면 두 번째 오류 값은 100 보다 작은 90, 세 번째는 80 과 같은 방식으로 지속해서 오류를 감소시키는 방식으로 W 값을 계속 업데이트 → 오류값이 더 이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고 그 때의 W 값을 최적 파라미터로 반환

→ 미분된 1차함수의 기울기가 감소하지 않는 지점을 비용 함수가 최소인 지점으로 간주하고 그 때의 w 를 반환

→ (실제값-예측값)의 제곱의합의 평균을 계산한 후에 w1 에 대해, w0 에 대해 각각 편미분

→ 새로운 w1 = 이전 w1 - (w1에서 편미분한 결괏값)

→ 위 편미분 값이 너무 클 수 있기 때문에 보정 계수를 곱한다 =이를 '학습률' 이라한다.

저작자표시

'AI > Machine Learning' 카테고리의 다른 글

[Tave 7기 캐글스터디] 규제선형모델, 릿지/라쏘 (0)	2021.04.07
[Tave 7기 캐글스터디] 선형회귀, 다항회귀 (0)	2021.04.07
[Tave 7기 캐글스터디] AdaBoost, XGBoost, LGBM (0)	2021.04.07
[Tave 7기 캐글스터디] 결정 트리 & 랜덤포레스트 (0)	2021.04.07
[Tave 7기 캐글스터디] 정확도 측정 지표 (0)	2021.04.07

가전제품 이것저것 이야기

[Tave 7기 캐글스터디] 단순선형회귀, 경사하강법

1. 회귀 소개

2. 단순 선형 회귀

3. 경사 하강법

'AI > Machine Learning' 카테고리의 다른 글

+ Recent posts

티스토리툴바