반응형
Gradient Descent
한 점에서 이동하면서 cost가 가장 작은 점을 찾음
Full-batch Gradient Descent
전체 점의 평균을 이동하면서 cost가 가장 작은 점을 찾음
- 업데이트 감소 -> 계산상 속도 가능
- 안정적인 cost 함수 수렴
- 메모리 문제
- 대규모 데이터셋에선느 모델, 파라미터 업데이트가 느려짐
Stochastic Gradient Descent
랜덤으로 점을 이동하면서 cost가 가장 작은 점을 찾음
- 업데이트 너무 빈번해서 대용량 데이터에서 시간 오래 걸림
- 지역 최적화 회피
- 더 이상 cost가 줄어들지 않는점 찾기 어려움
Mini-batch Stochastic Gradient Descent
한번에 일정량의 데이터를 랜덤으로 추출한다.
Epoch
- 전체 데이터가 학습되는 횟수
- 전체 데이터가 training 데이터에 들어갈 때 카운팅
- Full-batch를 n번 실행하면 n epoch
Batch-size
Batch 안의 데이터의 개수
총 5,120개의 training data에서 512 batch-size이면 몇 번 학습해야 1 epoch가 되는가?
10번
Mini batch SGD
반응형
'AI > Machine Learning' 카테고리의 다른 글
Overfitting (0) | 2021.01.27 |
---|---|
SGD Issues (0) | 2021.01.27 |
Holdout method (0) | 2021.01.26 |
Gradient Descent (0) | 2021.01.26 |
하이퍼 파라미터란? (0) | 2021.01.26 |