함수 ReLU 및 ReLU 패밀리 활성화

(추기) 함수 활성화가 학습에 미치는 영향


아래 보도에서 실험과 해설을 실시하다.관심 있으면 꼭 하세요.
[ReLU, PRELU, 신령 등등...]우리는 케라스로 신경 네트워크에서 자주 사용하는 활성화 함수의 효과를 연구했다

ReLU의 이점

  • $\max(0,x)$간단해서 빠름
  • 제조 0 → 희소성 초래
  • $x>0$부분에서 미분치가 항상 1이므로 경사가 사라질 염려가 없습니다
  • ReLU가 함수를 활성화하는 이유


    접선과 같은 도표로 근사할 수 있다


    위키백과의 마지막에 $y=x^2$의 근사치가 실렸다
    위키백과 활성화 함수
    \phi=\max(0,x)
    
    y\simeq$2\phi(-x - 2) + 2\phi(-x - 1) + \phi(-x) + \phi(x) + 2\phi(x - 1) + 2\phi(x - 2)
    

    Google play ground에서 재밌는 Link 보기.


    중간층의 행동을 보면 재미있어요.
    확실히 ReLU는 폴리라인의 느낌을 조합했다.
    대략 각 층수의 적의 다각형을 형성할 수 있다
  • Linear
  • ReLU
  • sigmoid
  • ReLU 패밀리


    ReLU


    $$f =\max(0,x)$$
    - 참조(PFN 거주 자료): 딥러닝을 최적화하는 생각

    근사 함수


    $$f = log(1+e^x)$$

    Leaky ReLU


    요즘 많이 쓰여요.
    (wikipedia)
    2013년에 max(0.01x,x)는 LReL(leaky rectified linear)이라고 명명되었다.그러나 명명자는 이 활성화 함수를 사용하는 것은 의미가 없다고 보고했다.
    f = \begin{cases}
        x & (x>0) 
        \\
        0.01x  & (x<=0)
      \end{cases}
    

    Parametric ReLU


    ReLU 기울기를 parametric으로 설정
    f = \begin{cases}
        x & (x>0) 
        \\
        ax  & (x<=0)
      \end{cases}
    
  • 참조(원저): Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification
  • Exponential Linear Units

    f = \begin{cases}
        x & (x>0) 
        \\
        e^x -1  & (x<=0)
      \end{cases}
    
  • 참조(원저): Fast and Accurate Deep Network Learning by Exponential Linear Units
  • 그림


    ReLU 패밀리 다이어그램
    0 근처에 미묘한 다른 무늬가 있다

    좋은 웹페이지 즐겨찾기