[0부터 만든 Deep Learning] 신경망의 주요 파라미터 업데이트 기법

소개

이 기사는 처음부터 만드는 딥 러닝 7장 학습에 관한 테크닉을 나름대로 이해하고 알기 쉽게 출력한 것입니다.
문계의 스스로도 이해할 수 있었으므로, 기분을 편하게 읽어 주시면 다행입니다.
또, 본서를 학습할 때에 참고해 주시면 더욱 기쁩니다.

SGD

SGD는, 지금까지와 같이 기울기를 구하면 학습 계수를 곱해 현재의 파라미터와 뺄셈을 하는 것으로 파라미터를 갱신하는 수법입니다.

이 방법은 간단하고 구현하기 쉽지만, 그라디언트가 나타내는 방향 = 정확한 최소값으로의 방향이 아니기 때문에, 손실 함수의 최소값이 되는 파라미터의 지점까지 들쭉날쭉하고 효율이 나쁜 탐색을 해 버린다 약점입니다.

속도라는 개념이 추가된 기법. 그라디언트에서 현재 지점의 손실 함수의 최소값 지점으로 굴러가는 속도를 찾은 다음 매개 변수에 추가하여 매개 변수를 업데이트합니다.

SGD와 같이 지그재그한 탐색을 해 버립니다만, SGD보다도 지그재그가 경감되어 둥그스름한 지그재크 탐색이 되므로, 효율의 나쁨은 경감되고 있다.

처음에는 학습 계수를 크게 해서 갱신을 실시하고, 점점 학습 계수를 작게 하고 갱신을 실시하는 학습 계수의 감쇠라고 하는 테크닉을 사용한 수법.
처음에는 크게 파라미터가 갱신되고, 서서히 파라미터의 갱신은 작아진다.

이 수법을 사용하는 것으로, 한층 더 지그재그 탐색을 경감할 수 있어 효율의 좋은 탐색을 할 수 있다.

2015년에 제창된 새로운 수법으로 Momentum과 AdaGrad를 합체시킨 것과 같은 수법.
복잡하기 때문에 여기에서는 설명은 삼가지만, 매우 효율적인 탐색을 할 수 있다.

현재 주로 사용되고 있는 수법은 단순한 SGD와 매우 효율은 좋지만 복잡한 Adam이다.

이 문제에 관하여([0부터 만든 Deep Learning] 신경망의 주요 파라미터 업데이트 기법), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/SyutoHidano/items/0d663a77c6eb72764e50

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다