tokenizer [D&A 운영진 딥러닝 스터디] 4주차 1차시 Text Segmentation(문장을 의미를 갖고 있는 부분으로 쪼갬) & Representation(나누어진 부분을 숫자로 바꿈) Tokenization: 문장을 의미 있는 부분으로 나누는 과정(Lexical Analysis) Token: 문장을 구성하는 기본 단위 띄어쓰기를 통해 Tokenization OOV(Out-of-Vocabulary): 처음 본 단어(token)이 등장하는 현상... word2vec딥러닝RepresentationtokenizerNLP자습NLP Preprocessing for Korean analysis [Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정... PreprocessingtokenizernormalizekoreanPreprocessing [🤗 강좌 2.2] Pipeline 내부 실행 과정 다른 신경망(neural networks)과 마찬가지로 Transformer 모델은 원시 텍스트를 직접 처리할 수 없으므로 파이프라인의 첫번째 단계는 텍스트 입력을 모델이 이해할 수 있는 숫자로 변환하는 것입니다. 일단 위와 같이 토크나이저(tokenizer)를 생성하면, 아래의 코드에서 보는 것처럼, 이 토크나이저에 문장을 입력하여 모델에 바로 전달할 수 있는 파이썬 딕셔너리(diction... 파이프라인logitstokenizertransformerslogits
[D&A 운영진 딥러닝 스터디] 4주차 1차시 Text Segmentation(문장을 의미를 갖고 있는 부분으로 쪼갬) & Representation(나누어진 부분을 숫자로 바꿈) Tokenization: 문장을 의미 있는 부분으로 나누는 과정(Lexical Analysis) Token: 문장을 구성하는 기본 단위 띄어쓰기를 통해 Tokenization OOV(Out-of-Vocabulary): 처음 본 단어(token)이 등장하는 현상... word2vec딥러닝RepresentationtokenizerNLP자습NLP Preprocessing for Korean analysis [Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정... PreprocessingtokenizernormalizekoreanPreprocessing [🤗 강좌 2.2] Pipeline 내부 실행 과정 다른 신경망(neural networks)과 마찬가지로 Transformer 모델은 원시 텍스트를 직접 처리할 수 없으므로 파이프라인의 첫번째 단계는 텍스트 입력을 모델이 이해할 수 있는 숫자로 변환하는 것입니다. 일단 위와 같이 토크나이저(tokenizer)를 생성하면, 아래의 코드에서 보는 것처럼, 이 토크나이저에 문장을 입력하여 모델에 바로 전달할 수 있는 파이썬 딕셔너리(diction... 파이프라인logitstokenizertransformerslogits