Day 4 - Seq2Seq 요약

2614 단어 심층 학습
이 기사는 개인 공부용 메모입니다.

강의



BERT를 이해할 때까지의 흐름


  • Encoder-Decoder Model
  • Transformer (Encoder-Decoder x Attention)
  • BERT

  • Seq2seq 개요



    이름대로,
    계열(Sequence)을 입력으로서 계열(Sequence)을 출력하는 것


    번역(영어→일본어)
    음성인식(파형→텍스트)
    채팅봇(텍스트→텍스트)

    Seq2seq를 이해하는 데 필요한 것



    RNN: 재귀적
    LSTM: RNN 문제 해결

    둘 다 이미 익숙해졌기 때문에 여기서는 상세한 것은 생략.

    언어 모델



    단어의 배열에 대해 우도 (얼마나 일어날 수 있는지),
    문장으로서 자연인가, 를 확률로 평가
    argmax_{w\in V} P(I, have, a, w) 
    

    I have a 뒤에 오는 단어는?
    =출력 확률이 가장 높은 단어는?

    시각 t-1까지의 정보로 시각 t의 사후 확률을 구한다.

    Seq2seq



    RNN이 2개 연결한 것(Encoder RNN과 Decoder RNN)
    Encoder에서 Decoder로 숨겨진 상태 h를 인수합니다.

    Decoder의 output 측에 정답을 맞추면,
    교사 있어 배울 수 있다.

    Teacher Forcing



    정답 레이블을 Decoder 입력으로 만드는 방법.
    Teacher Forcing을 적용하면 연쇄적으로 오류가 커집니다.
    예방할 수 있다.

    BLEU



    번역에 자주 사용되는 지표(읽는 방법은, 부류?)
    전제는, 「프로의 번역자의 번역과 가까울수록 그 기계 번역의 정밀도는 높다」라고 하는 것.

    구현 연습



    lecture_chap1_exercise_public.ipynb

    소개





    갑자기 오류 발생.



    위와 같이 wheel 0.34.2를 설치 한 후 런타임을 다시 시작하면
    오류가 해결되었습니다.
    다만, 이하의 에러가 나오지만, 우선 신경쓰지 않고 무시한다.



    훈련 셀



    「#훈련」이라고 쓰여진 셀의 실행에 시간이 걸린다.

    여담
    강사가 훈련 셀을 시작한 몇 분 후에 스스로 훈련 셀을 실행했지만
    자신의 훈련 셀이 실행 종료가 빨랐다.
    Google Colaboratory의 처리 성능은 해마다 향상되고 있을 것이다.

    영어에서 일본어로 번역된 문장





    강사의 실행 결과는 「장사를 돌봐라.」라는 의미 불명한 출력이지만
    이쪽의 출력은 의미가 통하는 출력이 되어 있다.
    그러나 다른 번역 결과는 끔찍한 내용이었다.

    BLEU





    이 값이 좋은 값인지 좋지 않은 값인지는 잘 알려져 있지 않다.

    좋은 웹페이지 즐겨찾기