BPE - 훌륭한 개발자 블로그

[🤗 강좌 6.5] 정규화(Normalization) 및 사전 토큰화(Pre-tokenization)

트랜스포머 모델과 함께 사용되는 가장 일반적인 3가지 하위 단어(subwword) 토큰화 알고리즘(Byte-Pair Encoding[BPE], WordPiece, Unigram)에 대해 더 자세히 알아보기 전에, 먼저 각 토크나이저가 텍스트에 적용하는 전처리 과정을 살펴보겠습니다. 텍스트를 하위 토큰(subtokens)으로 분할하기 전에(모델에 따라), 토크나이저는 정규화(normalizat...

BPEPre-tokenizationSentencePieceWordpieceNormalizationBPE

[NLP] BPE(Byte Pair Encoding)

자연어 처리에서의 BPE는 서브워드 분리(subword segmentation) 알고리즘입니다. 기존에 있던 단어를 분리한다는 의미입니다. BPE을 요약하면, 글자(charcter) 단위에서 점차적으로 단어 집합(vocabulary)을 만들어 내는 Bottom up 방식의 접근을 사용합니다. 우선 훈련 데이터에 있는 단어들을 모든 글자(chracters) 또는 유니코드(unicode) 단위로...

BPENLPBPE