3. Loss Function and Optimization

Linear Classifier (복습)

W의 각 행은 class의 classifier로 생각하거나 각 class의 template (prototype)으로 생각할 수 있다
Wx+b 에서 (W,b)쌍을 기억하기 보단, x의 첫 col에 1을 추가하고, W와 b를 한 matrix로 저장하는 것. ~~그래서 교수님이 맨날 앞에 1이 있는 col을 추가한거였다...~~

Loss Function

loss function = cost function = objective function
얼마나 모델이 좋은가?
loss 값이 작을 수록 좋다

Multiclass SVM( Support Vector Machine) loss

correct class의 score가 incorrect class에 비해 적어도 Δ만큼은 커야한다
j는 correct class, s 는 f(x, W)의 score를 의미

	def L_i_vecorized(x, y, W):
		scores = W.dot(x) #내적
		margins = np.maximum(0, scores - scores[y] + 1) #margins[y]는 0이야하는데 1이 됨
		margins[y] = 0 #여기서 바꿔줌
		loss_i = np.sum(margins)
		return loss_i

loss 계산 예시
W의 초기값으로 아주 작은 값들을 넣으면, 모든 s도 거의 0에 가까운 값으로 나온다. 그러면 loss가 class의 갯수와 같다.(디버깅에 사용할 수 있다)
sum 대신 mean을 사용해도 scale만 달라지지 상관 없다
hinge loss
- threshold가 0인 loss

- (min, max) = (0, ∞)
- squared hinge

를 사용하면 범위는 같지만, loss들의 크기 변화가 더 극심해진다. 작은 차이 s를 큰 loss의 차이로 만들고 싶은 경우 이를 사용한다

Regularization

loss가 0인 W는 여러개가 될 수 있다
Regularization penalty인 R(W) 를 loss function에 덧붙여 더 최적의 W를 찾는다

- 감마는 1보다 큰 상수 (주로 cross-validation으로 결정)
- W값만 가지고 계산하기 때문에 data와는 전혀 무관하다
- loss에 이 값이 포함되는거라 W중 가장 작은 W를 구할 수 있게 해준다
- R(W)로는 다양한 식을 사용할 수 있다.

Softmax Classifier

SVM과 함께 많이 쓰이는 알고리즘
binary logistic regression의 응용
cross entropy loss
초기 W가 작아서 s 가 다 0에 가까우면 loss는 log C 가 됨 (C는 class 갯수)
정규화 파라미터인 람다의 값이 커지면 softmax 값은 작아진다

Optimization

Descent Gradient
- 내리막길을 찾아 그 방향으로 가는 것
- 미분값 이용

		while True:
			weights_grad = evaluate_gradient(loss_fun, data, weights)
			weigths += -step_size * weights_grad

Mini-batch Gradient Descent
- 모든 training data를 이용해 gradient 찾으려면 너무 expensive
- minibatch로 나눠서
- data의 각 sample들이 서로 correlated하기 때문에 가능
SGD(Stochastic Gradient Descent)
- mini batch에 적용한 방식을 하나의 sample로
- 일반적으로 SGD가 minibatch 방식을 뜻함 (혼용)
- minibatch의 크기로 2의 제곱수 사용

	while True:
			data_batch = sample_trainig_data(data, 256)
			weigts_grad = evaluage_gradient(loss_fun, data_batch, weights)
			weights += -step_size*weights_grad

꼼지락

Batch Normalization에 대한 논문을 읽으면서 딥러닝과 관련된 기초 지식을 많이 찾아봤다. 근데 그 내용을 다 이 강의에서 다시 듣게 되서 이해하기가 조금 쉬워서 좋기도 하면서... 너무 아는거 없이 논문에 덤볐나? 하는 생각도 들었다. 그래도 강의는 재밌었다 :)

Author And Source

이 문제에 관하여(👩🏻‍💻Standford CS231N Deep Learning -3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@twinklesu914/Standford-SC231N-Deep-Learning-3

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다