Wordpiece - 훌륭한 개발자 블로그

[🤗 강좌 6.5] 정규화(Normalization) 및 사전 토큰화(Pre-tokenization)

트랜스포머 모델과 함께 사용되는 가장 일반적인 3가지 하위 단어(subwword) 토큰화 알고리즘(Byte-Pair Encoding[BPE], WordPiece, Unigram)에 대해 더 자세히 알아보기 전에, 먼저 각 토크나이저가 텍스트에 적용하는 전처리 과정을 살펴보겠습니다. 텍스트를 하위 토큰(subtokens)으로 분할하기 전에(모델에 따라), 토크나이저는 정규화(normalizat...

BPEPre-tokenizationSentencePieceWordpieceNormalizationBPE