반응형

 

 

 

 

SGD 관련 이슈는 하이퍼파라미터를 어떻게 설정할지에 관한 것이다.

 

 

먼저 수도 코드로 SGD 라인의 개념 네가지를 이해해보도록 하자.

GD, BGD, SGD, MSGD

 

수도 코드


 

 

 

네 가지 개념


 

 

Gradient Descent

Batch Gradient Descent

Stochastic Gradient Descent

Mini-batch Gradient Descent

 

 

 

 

Time Consuming


 

 

 

한 개 씩 처리하는 GD와 SGD의 속도가 배치 단위로 처리하는 BGD, MSGD보다 빠르다. 

 

 

 

 

 

Convergence Process


빨강 - GD

노랑 - BGD

파랑 - MSGD : 랜덤하게 값을 주기 때문에 값이 튄다.

초록 - SGD

 

 

 

Multivariate


 

데이터가 적을 때 - normal equation

데이터가 많을 때 - SGD

 

 

 

 

 

 

Learning Rate


Learning Rate가 계속 줄어야 효율적으로 학습할 수 있다.

1) 특정 epocha 마다 사람이 learning rate를 설정해주는 것

2) 지수감소법, 1/t 감소법을 사용

 

 

 

 

종료조건 설정


1) 특정값 이하로 cost function이 줄어들지 않는 경우 GD를 멈춘다

2) 사람이 종료 조건을 설정한다(하이퍼 파라미터)

tol > loss - previous_loss

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Regularization  (0) 2021.01.27
Overfitting  (0) 2021.01.27
Stochastic Gradient Descent  (0) 2021.01.26
Holdout method  (0) 2021.01.26
Gradient Descent  (0) 2021.01.26

+ Recent posts