Day 4 - Transformer 요약
4055 단어 심층 학습
강의
NN 기계 번역의 문제점
길이에 약하다.
이유
・번역 원본 문장의 내용을 하나의 벡터로 표현
・문장과 번역 정밀도의 관계성
문서의 두 그래프에서 볼 수 있듯이,
Encoder-Decoder 모델은 통계 기계 번역 모델보다
BLEU 점수가 낮습니다.
Attention(주의 기구)
개요
번역 대상의 각 단어를 선택할 때 번역 원본 문장의 각 단어
숨겨진 상태 사용
가중치를 모두 더하면 1
예
h1은 무거운
h2는 가볍게
이에 따라 번역원과 번역처에서 단어마다 주의를 기울인다.
문장의 한 단어의 의미를 이해할 때 문장의 단어 중 어느 것에 주목하면 좋을지를 나타내는 점수.
메커니즘
입력. 검색하려는 쿼리
Key에서 비슷한 문장 찾기
정규화 된 벡터 출력
정규화 된 벡터를 문장으로 만듭니다
Key Value Attension 모두.
Transformer
개요
구조
Encoder 및 Decoder
Encoder 측면
Decoder 측면
Attention 유형
Source Target Attention(소스 타겟 주의 기구)
Query: Target
Key:Source
Value:Source
Self-Attention(자기주의 기구)
Query:Source
Key:Source
Value:Source
"바나나""가""좋아"
단어 사이의 주의를 구한다.
Position-Wise Feed-Forward Networks(PFFN)
위치 정보를 유지하면서 순전파한다.
Scaled dot product attention
모든 단어에 대한 Attention을 함께 계산합니다.
Attention(Q,K,V)=softmax \Biggl(\frac{QK^T}{\sqrt{d_k}} \Biggr)V
※ $Q,K,V$ 가 식의 어디에 위치하는지 주의.
※ $\sqrt{d_k}$ 로 나누는 이유는, 나누지 않는 경우에 소프트 맥스 함수의 기울기가 작아져 버리기 (위해)때문에.
\begin{align}
Q・K^T&=
\begin{pmatrix}
q_1\\
q_2\\
q_3\\
\end{pmatrix}
\begin{pmatrix}
k_1 k_2 k_3
\end{pmatrix}
\\
&=
\begin{pmatrix}
q_1 k_1 & q_1 k_2 & q_1 k_3\\
q_2 k_1 & q_2 k_2 & q_2 k_3\\
q_3 k_1 & q_3 k_2 & q_3 k_3\\
\end{pmatrix}
\end{align}
\begin{align}
Attention(Q,K,V)
&=softmax(QK^T)・ V \\
&=
\begin{pmatrix}
0.1 & 0.2 & 0.7\\
0.4 & 0.3 & 0.3\\
0.8 & 0.1 & 0.1
\end{pmatrix}
\begin{pmatrix}
v_1\\
v_2\\
v_3\\
\end{pmatrix}
\\
&=
\begin{pmatrix}
0.1v_1 + 0.2v_2 + 0.7v_3\\
0.4v_1 + 0.3v_2 + 0.3v_3\\
0.8v_1 + 0.1v_2 + 0.1v_3\\
\end{pmatrix}
\end{align}
Multi-Head Attention
가중치가 다른 8개의 헤드 사용
Decoder
Add and Norm
Add: Residual Connection
입출력의 차이를 학습
실장상은 출력에 입력을 그대로 가산할 뿐
효과: 학습 및 테스트 오류 감소
Norm: Layer Normalization
평균 0, 분산 1로 정규화
효과: 학습 가속화
Positional Encoding
단어 열의 단어 순서 정보 추가
$\sin$ 및 $\cos$ 사용(0~1 범위)
PE_{(pos,2i)}=\sin\Biggl(\frac{pos}{10000^{2i/512}}\Biggr)\\
PE_{(pos,2i+1)}=\cos\Biggl(\frac{pos}{10000^{2i/512}}\Biggr)\\
※ 괄호 안은 같다. 차이는 $\sin$ 과 $\cos$ 뿐입니다.
구현 연습
「자신의」는 옳지만, 그 이후는 미묘한 번역.
이곳은 BLEU 평가.
좋은지 나쁜지 판단하기 힘들다.
Reference
이 문제에 관하여(Day 4 - Transformer 요약), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/amateur2020/items/e1e2cbb36ff5d01a8338
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Day 4 - Transformer 요약), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/amateur2020/items/e1e2cbb36ff5d01a8338텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)