심층 학습 제7장 귀속형 신경 네트워크

[6장] 심층학습(청해복서)의 7장을 계속 읽는다.

본 장의 개요


지금까지 우리가 처리한 것은 샘플 차원에서 고정된 신경 네트워크다.
그러나 이 장에서 계열 데이터의 분류 문제를 처리한다.
시퀀스 데이터는 각 요소를 질서정연한 집합으로 제시하고 각 견본은 서로 다른 시퀀스 길이를 가지고 있다.
이러한 계열 데이터를 처리하기 위해 아래의 네트워크를 사용합니다.
  • Recurrent Neural Network(RNN)
  • 시리즈 길이가 다른 견본의 예측, 학습
  • Long Short-Term Memory(LSTM)
  • 시퀀스 길이가 매우 큰 데이터의 예측
  • RNN


    RNN이란 무엇입니까?


    내부에 폐쇄된 신경 네트워크의 총칭을 가지고 있다.
    RNN은 과거의 모든 입력에서 하나의 출력으로 매핑되는 것을 나타냅니다.

    입출력 정의 가져오기

  • 입력 레이어 셀
  • $\boldsymbol {x^t}= (x_i^t)$
  • 중간층 단원
  • $\boldsymbol {u^t}= (u_j^t)$
  • $\boldsymbol {z^t}= (z_j^t)$
  • 출력층 단원
  • $\boldsymbol {v^t}= (v_j^t)$
  • $\boldsymbol {y^t}= (y_j^t)$
  • 권중 정의

  • 입력층과 중간층 사이의 가중치 $\boldsymbol {W^{(in)}= (w_{ji}^(in)})$
  • 중간층에서 중간층으로 되돌아오는 경로의 무게 $\boldsymbol {W}= (w_{jj^{\prime}})$
  • 중간 레이어와 출력 레이어 사이의 가중치 $\boldsymbol {W^ {(out)}= (w_{kj}^ (out)}) $
  • RNN의 정방향 전파 계산은?


    중간 레이어 가져오기


    시간 $t$의 중간 층에서
    입력층에서 $t$의 값 + 시간 $t-1$의 중간 층의 출력 값을 전달합니다.
    $$
    u_j^t =\sum_{i} w_{ji}^{(in)} x_i^t +\sum_{j^{\prime}} w_{jj^{\prime}} z_{j^{\prime}}^{t-1}
    $$

    중간 레이어 출력


    중간층의 출력은 활성화 함수 $f$를 사용합니다.
    $$
    z_j^t = f(u_j^t)
    $$
    그래서
    $$
    \boldsymbol{z_t} =\boldsymbol{f}(\boldsymbol{W}^{(in)}\boldsymbol{x}^t +\boldsymbol{W}\boldsymbol{z}^{t-1})
    $$

    네트워크 출력


    $$
    \boldsymbol{y_t} =\boldsymbol{f^{(out)}}(\boldsymbol{v})^{t} =\boldsymbol{f^{(out)}}(\boldsymbol{W}^{(out)}\boldsymbol{z}^{t})
    $$

    RNN의 역전파 계산은?


    BTRL법과 BPTT법이 있습니다.
  • BTRL 법
  • realtime recurrent learning
  • 높은 스토리지 효율성
  • BPTT 법
  • backpropagation through time
  • 빠른 계산
  • 단순함
  • 간단하게 생략하다.

    왜 RNN의 경사가 불안정합니까?


    RNN은 시퀀스 데이터의 입력 역사에 따라 레이어가 깊어집니다.
    층이 깊어질 때 오차 역방향 전파법을 통해 사다리를 계산할 때 트레이스 사다리가 사라지거나 폭발하는 성질을 가진다.
    RNN에서는 단기 기억을 실현할 수 있지만 더 장기적인 기억을 실현하기 어렵다는 것을 나타낼 수 있다.

    LSTM


    알려진 LSTM를 참조하면 정말 알 수 있다.
    이것슬라이드도 참고 가치가 있다.

    CTC(Connectionist Temporal Classification)


    입력과 출력의 시퀀스 길이가 동시에 사용되지 않습니다.
    임의의 RNN 또는 LSTM 등의 출력에 사용할 수 있습니다.
    출력에서 아무것도 출력하지 않는 공백을 가져오고 허용을 통해 시리즈 길이의 차이를 흡수합니다.
    따라서 단어수와 음소수는 입력 소리의 특징인 벡터의 수량보다 적고 고정된 길이가 아닌 출력을 나타낼 수 있다.

    전진 후퇴법


    순서대로 정확한 문자열을 생성할 확률을 구하다.
    원가 함수: 전체 발생 확률의 마이너스 대수 유사

    좋은 웹페이지 즐겨찾기