transformer - 훌륭한 개발자 블로그

Pytorch로 Transformer 구현해보기 (3/3)

공부 정리를 위한 글입니다. 트랜스포머의 구조는 N개의 인코더와 디코더가 쌓여있고 입력 문장(소스 문장)을 입력하면 인코더에서 해당 문장에 대한 표현을 학습시키고, 그 결과값을 디코더에 보내면 디코더에서 타깃 문장을 생성한다. 디코더는 vocab에 대한 확률 분포를 예측하고 확률이 가장 큰 단어를 선택한다. 트랜스포머에서는 올바른 문장을 생성하려면 예측 확률 분포와 실제 확률 분포 사이의 차...

PyTorchtransformerPyTorch

Pytorch로 Transformer 구현해보기 (2/3)

디코더도 인코더와 동일하게 쌓을 수 있다. 디코더에서는 시간 스텝 t = 1이면 디코더의 입력값은 문장의 시간을 알리는 <sos>를 입력한다. 이 입력값을 받은 디코더는 타깃 문장의 첫번째 단어 "J'aime"을 생성한다. 이와 같이 시간 스텝 t = 3이면 이전 단계와 동일한 방법으로 진행한다. 이때 입력은 <sos>, "J'aime", "le"이고 위 그림과 같은 단어를 생성한다. 이런식...

PyTorchtransformerPyTorch

Transformer -1-

Dot product Attention을 위해서는 Encoder의 Hidden state(h)와 Decoder의 Hidden state함수(s)가 얼마나 유사한지를 표현하기 위한 내적으로 시작 Positional Encoding : 'Sequence 내 해당 정보의 위치 정보'와 'Embedding된 데이터'를 사인함수와 코사인함수 형태로 만들어 다음 Layer의 Input으로 전달 Mult...

인공지능transformerAIAI

[Vision Transformer] 코드 설명

반입니다.다음 그림의 모델을 설치하고 있습니다. 멀티-Head Self-Attention을 사용했기 때문에 각 Q, K, V에 대해 헤드 수만 원하기 때문에 각 헤드의 차원수와 헤드 수(heads)를 곱한 값을 설정합니다. \sqrt{D k}. Attention을 구할 때 Softmax(QK^T/\sqrt{D k})가 사용하는 Softmax 함수입니다. 이 Linker 레이어는 [q, k, ...

computervisiontransformertech

[paper-review] Attention Is All You Need

"Attention is all you need." arXiv preprint arXiv:1706.03762 (2017). self-attention, point-wise의 stack으로 encoder 및 decoder가 구성된다. Encoder and Decoder Stacks Encoder. 두 개의 multi-head self-attention layer 두 개의 position-wis...

transformerAttentionDeep Learning논문리뷰Attention

Transformer로 한국어-영어 기계번역 모델 만들기

최근에 여러가지 자연어처리 모델들을 다루면서 트랜스포머 기반의 모델들인 BERT, GPT, ELECTRA 등과 같이 다양한 모델들을 사용하게 되는데, 모델들을 사용하게 되면서 트랜스포머 모델 자체에 대한 직접 구현을 해보고 싶다는 생각을 가지게 되었습니다. 기존에 트랜스포머 관련해서 자세히 설명한 자료들을 참고하여 트랜스포머 모델을 직접 개발해보고, 한국어에서 영어로 번역하는 기계 번역 태스...

transformerMachine TranslationNLPko-en translationMachine Translation