활성화 함수의 Sigmoid, Tangent, ReLu, Leaky ReLu 차이

2219 단어 DeepLearning
일반 활성화 함수의 차이를 주석합니다.
결론부터 말하자면 ReLu를 사용하세요.
그래도 Dead Neurons가 생기면 Leaky ReLu 등을 사용하세요.
여기에 더 상세하게 쓰여 있다.
https://github.com/EmbraceLife/sigmoid-SEE-vs-relu-softmax-cross-entropy/blob/master/relation-sigmoid-SSE-vs-relu-softmax-cross-entropy.ipynb

Sigmoid or Logistic

f(x)= 1/1 + exp(-x)
  • 사다리 폭발 문제
  • 둘째, 수출은 중간에서 0이 아니다.그러면 경사가 너무 많이 업데이트되어 다른 방향으로 이동합니다.0<출력<1, 최적화하기 어려워요
  • 시그모이드 포화 사살 점변
  • 시그모드는 수렴이 비교적 느리다

  • Hyperbolic Tangent

    f(x)= 1 - exp(-2x)/ 1 + exp(-2x)
    
    -1에서 1의 범위-1, 즉 -1<출력<1이므로 출력은 가운데에서 0이다.
    하지만 경사도 문제는 존재한다.

    ReLu


    이것은 지난 2~3년 동안 매우 보급되었다.최근 Tanh 함수와의 회합이 6배 개선되었다는 것이 증명되었다.
    나는 기계 학습과 컴퓨터 과학에서 가장 간단하고 가장 일치하는 기교와 방법이 가장 좋고 가장 좋은 방법이라는 것을 발견했다.따라서 사라진 사다리의 문제를 피하고 수정해야 한다.거의 모든 딥러닝 모형은 현재 ReLu를 사용하고 있다.
    그러나 신경 네트워크 모델의 숨겨진 층에서만 사용해야 한다는 한계가 있다.
    따라서 출력층에서 클래스 확률은 Softmax 함수를 사용하여 Classification 문제를 계산해야 하고 선형 함수는 회귀 문제에 간단하게 사용해야 한다.
    ReLu의 또 다른 문제는 경사가 훈련 과정에서 손상되기 쉽고 사망까지 초래할 수 있다는 것이다.이것은 모든 데이터 지점이 다시 활성화되지 않도록 권한을 다시 업데이트할 수 있습니다.그냥 ReLu가 Dead Neurons를 데려온다고요.
    이 문제를 해결하기 위해 우리는 또 다른 Leaky ReLu라는 수정을 도입하여 Dead Neurons의 문제를 해결했다.업데이트를 계속 이용하기 위해 작은 비탈길을 가져왔습니다.

    결론


    오늘은 ReLu를 사용해야 합니다.ReLu는 숨겨진 레이어에만 적용됩니다.만약 우리 모델이 훈련 중에 사망신경원을 형성한다면 누설되기 쉬운 ReLu나 Maxout 함수를 사용해야 한다.
    Sigmoid와 Tanh는 단지 오늘 사용되지 말아야 할 것이다. 왜냐하면 신경 네트워크 모델의 훈련에서 많은 문제를 일으키고 경사가 사라지기 때문이다.

    참고 자료

    좋은 웹페이지 즐겨찾기