[0부터 만든 Deep Learning] 신경망의 주요 파라미터 업데이트 기법

소개



이 기사는 처음부터 만드는 딥 러닝 7장 학습에 관한 테크닉을 나름대로 이해하고 알기 쉽게 출력한 것입니다.
문계의 스스로도 이해할 수 있었으므로, 기분을 편하게 읽어 주시면 다행입니다.
또, 본서를 학습할 때에 참고해 주시면 더욱 기쁩니다.

SGD



SGD는, 지금까지와 같이 기울기를 구하면 학습 계수를 곱해 현재의 파라미터와 뺄셈을 하는 것으로 파라미터를 갱신하는 수법입니다.

이 방법은 간단하고 구현하기 쉽지만, 그라디언트가 나타내는 방향 = 정확한 최소값으로의 방향이 아니기 때문에, 손실 함수의 최소값이 되는 파라미터의 지점까지 들쭉날쭉하고 효율이 나쁜 탐색을 해 버린다 약점입니다.

Momentum



속도라는 개념이 추가된 기법. 그라디언트에서 현재 지점의 손실 함수의 최소값 지점으로 굴러가는 속도를 찾은 다음 매개 변수에 추가하여 매개 변수를 업데이트합니다.


SGD와 같이 지그재그한 탐색을 해 버립니다만, SGD보다도 지그재그가 경감되어 둥그스름한 지그재크 탐색이 되므로, 효율의 나쁨은 경감되고 있다.

AdaGrad



처음에는 학습 계수를 크게 해서 갱신을 실시하고, 점점 학습 계수를 작게 하고 갱신을 실시하는 학습 계수의 감쇠라고 하는 테크닉을 사용한 수법.
처음에는 크게 파라미터가 갱신되고, 서서히 파라미터의 갱신은 작아진다.


이 수법을 사용하는 것으로, 한층 더 지그재그 탐색을 경감할 수 있어 효율의 좋은 탐색을 할 수 있다.

Adam



2015년에 제창된 새로운 수법으로 Momentum과 AdaGrad를 합체시킨 것과 같은 수법.
복잡하기 때문에 여기에서는 설명은 삼가지만, 매우 효율적인 탐색을 할 수 있다.

현재 주로 사용되고 있는 수법은 단순한 SGD와 매우 효율은 좋지만 복잡한 Adam이다.

좋은 웹페이지 즐겨찾기