【논문소개】Mask-Predict: Parallel Decoding of Conditional Masked Language Models
2791 단어 NLPTransformer
Facebook AI Research
htps : // 아 rぃ v. rg / pdf / 1904. 09324. pdf
EMNLP2019
(구현) : htps : // 기주 b. 코 m / 후세 보오 k 레세 아 rch / 마 스키 P 레 ct
개요
많은 기계 번역 모델은 시계열을 따라 단어를 생성하는 autoregressive 모델입니다.
예, Transformer, RNN (lstm) 기반의 encoder-decoder 모델 등.
제안 방법에서는 non-autoregressive에 단어를 생성하는 모델을 제안한다.
즉, 시계열 순서로 단어를 디코딩하는 것은 아닙니다.
타겟 문장의 일부를 MASK 하는 것으로, 디코드시, MASK 단어를 예측하는 태스크로서, 확률 스코어가 낮은 n개의 단어를 반복수(T)만큼, 예측하는(디코드 하는) 모델
문제점
문장의 시계열 순서로 단어를 생성하지 않으므로 반복 ( "completed completed"과 같은)과 같은 비 문법적 문장이 생성됩니다.
이것은 non-autoregressive 생성 모델입니다.
multi-modality의 문제이다 [Gu et al., 2018].
디코딩시 단어 MASK 방법
MASK 할 단어의 수는
n = N * T-t/T
에 의해 결정되고,
예와 같이, N=12, T=3이라고 하면(논문에 이렇게는 쓰고 있지 않지만, 아마 해석으로서는 이와 같을 것)
t=1(1회째의 반복시)는
12*0.66 = 7.92 ≒ 8
t=2(2번째 반복시)는
12*0.33 = 3.96 ≒ 4
한 단어가 MASK된다 (그리고 그 단어가 PREDICT된다)
MASK되는 단어는 확률 점수가 낮은 순서로 선택된다.
확률 값 Pi가 낮은 아래에서 n 개의 단어가 MASK됩니다.
모델
베이스는 Transformer
Transformer의 디코더에서 self-attention 메커니즘을 제외했습니다.
즉, 디코더는 양방향입니다. (bi-directional)
왼쪽으로부터의 정보도 오른쪽으로부터의 정보도 단어의 예측에 사용할 수 있으므로.
비교 실험
Baseline: Transformer
SMALL/BASE CMLM with Mask-Predict(제안 기법)
NAT w/Fertility (Gu et al., 2018)
CTC Loss (Libovicky and Helcl ', 2018)
Iterative Refinement (Lee et al., 2018)
결론
다른 nonautoregressive 모델보다 정확하게,
autoregressive 모델보다 훨씬 짧은 시간에 디코딩이 완료되었습니다.
기타 문제점
등을 들 수 있다. .
다른 공헌으로,
다음 읽기 논문
Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK
Li, and Richard Socher. 2018. Non-autoregressive
neural machine translation. In ICLR.
multi-modality problem이란?
Reference
이 문제에 관하여(【논문소개】Mask-Predict: Parallel Decoding of Conditional Masked Language Models), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kotaaaa/items/15257d81afeb33143352텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)