반응형

 

 

 

Supervised Learning 

1) classification( Yes or No )

: 실제 범주와 예측한 범주의 일치하는 정도

 

2) regression

: 실제값과 예측한 값의 차이(=오차)를 통해 모델의 성능 평가

 

Unsupervised Learning

1) Clustering

 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Regression  (0) 2021.02.02
Confusion Matrix  (0) 2021.02.02
Data preprocessing & Feature engineering  (0) 2021.02.01
Regularization  (0) 2021.01.27
Overfitting  (0) 2021.01.27
반응형

 

 

 

 

 

Data preprocessing 이란?

1. Vectorization

2. Normalization

3. Handling Missing Values

 

 

Feature engineering 이란?

도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록  preprocessed  data를 변환하는 작업

 

Techniques of Feature Engineering

1. Feature Transfomation

2. Feature Generation

3. Feature Selection

4. Feature Extraction

 

 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Confusion Matrix  (0) 2021.02.02
Supervised Learning / Unsupervised Learning  (0) 2021.02.02
Regularization  (0) 2021.01.27
Overfitting  (0) 2021.01.27
SGD Issues  (0) 2021.01.27
반응형

 

 

 

 

L2 regularization(Ridge)


 

L2 -> 세타의 제곱, 람다 : 사람이 지정해준다.

단, 절편 값은 논리적 모순이 생기기 때문에 절편 빼고 다른 부분만 업데이트 시켜준다.

 

 

 

 

수식 정리 후,

 

 

L1 regularization(Lasso)


L1 -> 세타의 절대값

 

 

 

 

 

L1 vs L2


 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Supervised Learning / Unsupervised Learning  (0) 2021.02.02
Data preprocessing & Feature engineering  (0) 2021.02.01
Overfitting  (0) 2021.01.27
SGD Issues  (0) 2021.01.27
Stochastic Gradient Descent  (0) 2021.01.26
반응형

 

 

 

 

 

 

Occam's razor

보다 적은 수의 논리로 설명이 가능할 경우, 많은 수의 논리를 세우지 말라

 

 

 

Bias - Variance Tradeoff

 

 

 

epoch이 증가할수록 train set에 너무 맞춰진 모델이 생성되면서 test set에서의 오류가 증가함


 

 

 

 

Overfitting을 극복하는 방법


 

Regularization != Normalization

 

 

 

Regularization


 

cost function에서 1000 x 세타1 으로 패널티를 준다.

그 때, 세타1을 줄이는 것이 Regularization이다?

 

 

 

 

 

 

 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Data preprocessing & Feature engineering  (0) 2021.02.01
Regularization  (0) 2021.01.27
SGD Issues  (0) 2021.01.27
Stochastic Gradient Descent  (0) 2021.01.26
Holdout method  (0) 2021.01.26
반응형

 

 

 

 

SGD 관련 이슈는 하이퍼파라미터를 어떻게 설정할지에 관한 것이다.

 

 

먼저 수도 코드로 SGD 라인의 개념 네가지를 이해해보도록 하자.

GD, BGD, SGD, MSGD

 

수도 코드


 

 

 

네 가지 개념


 

 

Gradient Descent

Batch Gradient Descent

Stochastic Gradient Descent

Mini-batch Gradient Descent

 

 

 

 

Time Consuming


 

 

 

한 개 씩 처리하는 GD와 SGD의 속도가 배치 단위로 처리하는 BGD, MSGD보다 빠르다. 

 

 

 

 

 

Convergence Process


빨강 - GD

노랑 - BGD

파랑 - MSGD : 랜덤하게 값을 주기 때문에 값이 튄다.

초록 - SGD

 

 

 

Multivariate


 

데이터가 적을 때 - normal equation

데이터가 많을 때 - SGD

 

 

 

 

 

 

Learning Rate


Learning Rate가 계속 줄어야 효율적으로 학습할 수 있다.

1) 특정 epocha 마다 사람이 learning rate를 설정해주는 것

2) 지수감소법, 1/t 감소법을 사용

 

 

 

 

종료조건 설정


1) 특정값 이하로 cost function이 줄어들지 않는 경우 GD를 멈춘다

2) 사람이 종료 조건을 설정한다(하이퍼 파라미터)

tol > loss - previous_loss

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Regularization  (0) 2021.01.27
Overfitting  (0) 2021.01.27
Stochastic Gradient Descent  (0) 2021.01.26
Holdout method  (0) 2021.01.26
Gradient Descent  (0) 2021.01.26
반응형

 

 

 

Gradient Descent


한 점에서 이동하면서 cost가 가장 작은 점을 찾음

 

 

Full-batch Gradient Descent


전체 점의 평균을 이동하면서 cost가 가장 작은 점을 찾음

- 업데이트 감소 -> 계산상 속도 가능

- 안정적인 cost 함수 수렴

- 메모리 문제

- 대규모 데이터셋에선느 모델, 파라미터 업데이트가 느려짐

 

 

 

Stochastic Gradient Descent


랜덤으로 점을 이동하면서 cost가 가장 작은 점을 찾음

- 업데이트 너무 빈번해서 대용량 데이터에서 시간 오래 걸림

- 지역 최적화 회피

- 더 이상  cost가 줄어들지 않는점 찾기 어려움

 

 

Mini-batch Stochastic Gradient Descent


한번에 일정량의 데이터를 랜덤으로 추출한다.

 

 

 

 

 

 

Epoch 


- 전체 데이터가 학습되는 횟수

- 전체 데이터가 training 데이터에 들어갈 때 카운팅

- Full-batch를 n번 실행하면 n epoch

 

 

 

 

Batch-size


Batch 안의 데이터의 개수

 

 

 

 

총 5,120개의 training data에서 512 batch-size이면 몇 번 학습해야 1 epoch가 되는가?


10번

 

 

 

 

 

Mini batch SGD


 

 

 

 

 

 

 

반응형

'AI > Machine Learning' 카테고리의 다른 글

Overfitting  (0) 2021.01.27
SGD Issues  (0) 2021.01.27
Holdout method  (0) 2021.01.26
Gradient Descent  (0) 2021.01.26
하이퍼 파라미터란?  (0) 2021.01.26

+ Recent posts