【논문소개】Mask-Predict: Parallel Decoding of Conditional Masked Language Models

2791 단어 NLPTransformer
Mask-Predict: Parallel Decoding of Conditional Masked Language Models
Facebook AI Research
htps : // 아 rぃ v. rg / pdf / 1904. 09324. pdf
EMNLP2019
(구현) : htps : // 기주 b. 코 m / 후세 보오 k 레세 아 rch / 마 스키 P 레 ct

개요



많은 기계 번역 모델은 시계열을 따라 단어를 생성하는 autoregressive 모델입니다.
예, Transformer, RNN (lstm) 기반의 encoder-decoder 모델 등.
제안 방법에서는 non-autoregressive에 단어를 생성하는 모델을 제안한다. 
즉, 시계열 순서로 단어를 디코딩하는 것은 아닙니다.
타겟 문장의 일부를 MASK 하는 것으로, 디코드시, MASK 단어를 예측하는 태스크로서, 확률 스코어가 낮은 n개의 단어를 반복수(T)만큼, 예측하는(디코드 하는) 모델

문제점



문장의 시계열 순서로 단어를 생성하지 않으므로 반복 ( "completed completed"과 같은)과 같은 비 문법적 문장이 생성됩니다.

이것은 non-autoregressive 생성 모델입니다.
multi-modality의 문제이다 [Gu et al., 2018].

디코딩시 단어 MASK 방법



MASK 할 단어의 수는
n = N * T-t/T
에 의해 결정되고,

예와 같이, N=12, T=3이라고 하면(논문에 이렇게는 쓰고 있지 않지만, 아마 해석으로서는 이와 같을 것)
t=1(1회째의 반복시)는
12*0.66 = 7.92 ≒ 8
t=2(2번째 반복시)는
12*0.33 = 3.96 ≒ 4
한 단어가 MASK된다 (그리고 그 단어가 PREDICT된다)



MASK되는 단어는 확률 점수가 낮은 순서로 선택된다.


확률 값 Pi가 낮은 아래에서 n 개의 단어가 MASK됩니다.

모델



베이스는 Transformer
Transformer의 디코더에서 self-attention 메커니즘을 제외했습니다.
즉, 디코더는 양방향입니다. (bi-directional)
왼쪽으로부터의 정보도 오른쪽으로부터의 정보도 단어의 예측에 사용할 수 있으므로.

비교 실험



Baseline: Transformer
SMALL/BASE CMLM with Mask-Predict(제안 기법)
NAT w/Fertility (Gu et al., 2018)
CTC Loss (Libovicky and Helcl ', 2018)
Iterative Refinement (Lee et al., 2018)


결론



다른 nonautoregressive 모델보다 정확하게,
autoregressive 모델보다 훨씬 짧은 시간에 디코딩이 완료되었습니다.

기타 문제점
  • 대상 문장 길이 문제
  • 지식의 증류에 대한 의존을 고려할 수 없다.
    등을 들 수 있다. .

  • 다른 공헌으로,
  • 넓은 의미에서 마스크 언어 모델이 텍스트 의미 획득뿐만 아니라 텍스트 생성 작업에도 유용함을 나타낼 수 있었다.

  • 다음 읽기 논문



    Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK
    Li, and Richard Socher. 2018. Non-autoregressive
    neural machine translation. In ICLR.

    multi-modality problem이란?

    좋은 웹페이지 즐겨찾기