경사 하강법 (Gradient Descent)

이제 앞서서 설명한 비용 함수(cost function)의 값을 최소로 하는 $W$

저는 경사하강법의 설명을 쉽게하기 위해 $b$

가중치 $W$

위의 그래프는 $b$

위의 그래프는 $cost(W)$

이러한 과정을 위해서 미분을 사용하게 되며, 위의 그림의 초록색 선은 $W$

접선의 기울기 = \frac {\delta cost(W)}{\delta W}

접선의 기울기가 0이 되는 지점을 찾기 위해 반복되는 과정에 특정 숫자 $\alpha$

기울기가 음수일 때 : 기울기의 값이 증가

W := W - \alpha * (음수기울기) = W+\alpha * (양수기울기)

기울기가 음수면 위의 식을 통해 결과적으로 $W$

기울기가 양수일 때 : 기울기의 값이 감소

W := W - \alpha *(양수기울기)

기울기가 양수면 $W$

W := W - \alpha \frac{\delta}{\delta W}cost(W)

여기서 사용된 $\alpha$

하지만, 학습률이 지나치게 높은 값을 가질 때, 접선의 기울기가 0이 되는 $W$

또 지나치게 너무 낮은 값을 가지면 학습속도가 느려지기 때문에 적당한 값의 학습률을 찾아내는 것도 중요합니다.

설명을 위해 $b$

경사하강법의 PyTorch Code

optimizer = optim.SGD([W, b], lr=0.01)

경사 하강법의 PyTorch를 사용한 구현입니다.
아래의 SGD는 경사 하강법의 일종입니다. lr은 학습률(learning rate)를 의미합니다.
학습 대상인 W와 b가 SGD의 입력이 됩니다.

# gradient를 0으로 초기화
optimizer.zero_grad() 
# 비용 함수를 미분하여 gradient 계산
cost.backward() 
# W와 b를 업데이트
optimizer.step()

optimizer.zero_grad()를 실행하므로서 미분을 통해 얻은 기울기를 0으로 초기화합니다.
기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있습니다.
그 다음 cost.backward()함수를 호출하면 가중치 W와 편향 b에 대한 기울기가 계산됩니다.
그 다음 경사 하강법 최적화 함수 opimizer의 step()함수를 호출하여 인수로 들어갔던 W와 b에서 리턴되는 변수들의 기울기에 학습률(learining rate) = 0.01을 곱하여 빼줌으로서 업데이트합니다.

참조

PyTorch로 시작하는 딥러닝 입문 - https://wikidocs.net/52460
모두를 위한 딥러닝 시즌2 PyTorch - https://github.com/deeplearningzerotoall/PyTorch

Author And Source

이 문제에 관하여(모두를 위한 딥러닝 시즌2 - PyTorch Lab 3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@d9249/모두를-위한-딥러닝-시즌2-PyTorch-Lab-3

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다