Stochastic Gradient Descent

Nolja놀자 2021. 1. 26. 16:04

2021. 1. 26. 16:04

Gradient Descent

한 점에서 이동하면서 cost가 가장 작은 점을 찾음

Full-batch Gradient Descent

전체 점의 평균을 이동하면서 cost가 가장 작은 점을 찾음

- 업데이트 감소 -> 계산상 속도 가능

- 안정적인 cost 함수 수렴

- 메모리 문제

- 대규모 데이터셋에선느 모델, 파라미터 업데이트가 느려짐

Stochastic Gradient Descent

랜덤으로 점을 이동하면서 cost가 가장 작은 점을 찾음

- 업데이트 너무 빈번해서 대용량 데이터에서 시간 오래 걸림

- 지역 최적화 회피

- 더 이상 cost가 줄어들지 않는점 찾기 어려움

Mini-batch Stochastic Gradient Descent

한번에 일정량의 데이터를 랜덤으로 추출한다.

Epoch

- 전체 데이터가 학습되는 횟수

- 전체 데이터가 training 데이터에 들어갈 때 카운팅

- Full-batch를 n번 실행하면 n epoch

Batch-size

Batch 안의 데이터의 개수

총 5,120개의 training data에서 512 batch-size이면 몇 번 학습해야 1 epoch가 되는가?

10번

Mini batch SGD

가전제품 이것저것 이야기