normalize - 훌륭한 개발자 블로그

Preprocessing for Korean analysis

[Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정...

PreprocessingtokenizernormalizekoreanPreprocessing

3-weka.filters.unsupervised.attribute.Normalize

weka규범화normalize