Lecture 3 - Backprop and Neural Networks

-> Paris가 지역이 아닌 사람 이름이라는 것을 분류하기 위해서는 "context"를 고려해야 한다.

Simple NER

아이디어 : 주변 단어들의 문맥 안에서 각각의 단어를 분류한다.

- logistic classifier를 학습시킨다.

- 단어 벡터들을 concatenate한 것을 바탕으로 center word를 분류한다.

Gradients

n개의 input과 1개의 output이 있는 f(x) = f(x1, x2, ..., xn) 이 있을 때,

f(x)의 미분값은 각각의 input들의 편미분의 벡터이다.

Jacobian Matrix: Generalization of the Gradient

n개의 input과 m개의 output이 있는 f(x) = [f1(x1, x2, ..., xn), ..., fm(x1, x2, ..., xn)] 이 있을 때,

f(x)의 미분값은 편미분들의 m x n 행렬이다.

Question

- logistic인지? softmax인지?