tokenizer - 훌륭한 개발자 블로그

Golang HTML 토크나이저

새로운 dom 문서를 생성하여 PHP 또는 Js에서 간단히 수행할 수 있는 것처럼 golang에서 HTML 콘텐츠를 구문 분석하고 추출합니다. golang에는 요구 사항에 따라 다양한 패키지를 사용하여 여러 가지 방법이 있습니다. 내가 알아낸 몇 가지 방법은 다음과 같습니다. : gohtml은 HTML5 토크나이저 및 파서 구현입니다. 파싱 후 노드를 리턴하고 토크나이저 개념을 사용하여 태그...

htmltokenizerparsergo

Preprocessing for Korean analysis

[Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정...

PreprocessingtokenizernormalizekoreanPreprocessing