SGD Issues

Nolja놀자 2021. 1. 27. 12:55

2021. 1. 27. 12:55

SGD 관련 이슈는 하이퍼파라미터를 어떻게 설정할지에 관한 것이다.

먼저 수도 코드로 SGD 라인의 개념 네가지를 이해해보도록 하자.

GD, BGD, SGD, MSGD

수도 코드

네 가지 개념

Gradient Descent

Batch Gradient Descent

Stochastic Gradient Descent

Mini-batch Gradient Descent

Time Consuming

한 개 씩 처리하는 GD와 SGD의 속도가 배치 단위로 처리하는 BGD, MSGD보다 빠르다.

Convergence Process

빨강 - GD

노랑 - BGD

파랑 - MSGD : 랜덤하게 값을 주기 때문에 값이 튄다.

초록 - SGD

Multivariate

데이터가 적을 때 - normal equation

데이터가 많을 때 - SGD

Learning Rate

Learning Rate가 계속 줄어야 효율적으로 학습할 수 있다.

1) 특정 epocha 마다 사람이 learning rate를 설정해주는 것

2) 지수감소법, 1/t 감소법을 사용

종료조건 설정

1) 특정값 이하로 cost function이 줄어들지 않는 경우 GD를 멈춘다

2) 사람이 종료 조건을 설정한다(하이퍼 파라미터)

tol > loss - previous_loss

Regularization (0)	2021.01.27
Overfitting (0)	2021.01.27
Stochastic Gradient Descent (0)	2021.01.26
Holdout method (0)	2021.01.26
Gradient Descent (0)	2021.01.26

가전제품 이것저것 이야기