【활성화 함수】 활성화 함수의 기초

먼저 거절하고 일어나지만 실수하면 죄송합니다 >>

우선 유명한 활성화 함수의 좋은 곳과 나쁜 곳을 보고 싶다!

활성화 함수에 필요한 것


  • 비선형인 것 => 비선형을 표현하기 위해 활성화 함수를 사용하는데 선형이라면 의미가 없다!
  • 음의 입력에 대해서 출력의 값이 거의 0인 것 그렇다면? (조금 확실하지 않다)
  • 미분의 최대치가 1인 것 => 구배를 계산해 가는데 활성화 함수의 미분을 몇층이나 곱해 갈 때, 1 이하의 값을 곱하면 0에 접근해 간다.
  • 활성화 함수 부드러운 것 => 연속 함수는 더 정확합니다

  • sigmoid





    sigmoid의 미분의 최대치는 0.25로 되어 있기 때문에, sigmoid 함수를 곱해 가면 값이 점점 작아지고, 그라디언트 소실 문제를 일으킨다.

    tanh





    최대치가 1이 되어 sigmoid였던 구배 소실 문제가 일어나기 어려워졌다.
    입력이 극단적으로 큰 곳과 작은 곳에서는 미분이 0이 되는 문제가 있다. 학습이 진행되지 않아~

    ReLU





    이점은 양의 입력시 기울기가 1이 되어 경사 소실이 일어나지 않는다는 것. 단점은 부의 입력시 기울기가 0이 되어 학습이 진행되지 않는 것.

    leaky-ReLU





    ReLU 입력이 음수일 때 학습이 진행되지 않는 문제에 대해 부정적인 입력이 왔을 때 작은 기울기를 붙인다.
    하지만 그다지 효과가 없었다는 사람이 있었다.

    Swish





    ReLU에 가깝지만 매끄러운 점이 정밀도를 올려진다. 다만 계산 비용이 조금 올라간다.

    Mish





    Swish의 진화 시스템? 1차 미분의 기울기가 가파르므로 수렴이 빠르다.



    tanhExp





    Swish의 진화 시스템? Mish보다 1차 미분의 기울기가 가파르므로, 수렴이 빨라지는 곳이 좋은 곳?!(후일 논문 확인합니다)
    경사가 1을 넘는 범위가 작아지는 것도 고평가!



    결론



    절대 아니지만 네 가지가 활성화 함수에서 중요합니다.
    1. 비선형인 것
    2. 부의 입력에 대해서 출력의 값이 거의 0인 것
    3. 미분의 최대치가 1인 것
    4. 활성화 함수 매끄럽다

    <참고문헌>
    Swish
    htps : // 아 rぃ v. rg / pdf / 1710. 05941. pdf
    Mish: A Self Regularized Non-Monotonic
    Activation Function
    htps : // / r ぃ v. rg / pdf / 1908. 08681v3. pdf
    활성화 함수 목록 (2020)
    htps : // 이 m / 언제 / ms / 73cd401 a fd463 a 78115 a

    좋은 웹페이지 즐겨찾기