Elasticsearch 토크나이저 – 부분 단어 토큰나이저
Elasticsearch 토큰나이저 – 부분 단어 토큰나이저
이 튜토리얼에서는 부분적인 단어 일치를 위해 텍스트나 단어를 작은 조각으로 나눌 수 있는 2개의 토크나이저인 N-Gram Tokenizer와 Edge N-Gram Tokenizer를 살펴보겠습니다.
I. N-Gram 토큰화기
ngram
토크나이저는 2가지 작업을 수행합니다.=> N-gram은 연속 문자의 슬라이딩 창과 같습니다.
예를 들어:
POST _analyze
{
"tokenizer": "ngram",
"text": "Spring 5"
}
슬라이딩(최소 너비 1자, 최대 너비 2자) 창으로 용어를 생성합니다.
[ "S", "Sp", "p", "pr", "r", "ri", "i", "in", "n", "ng", "g", "g ", " ", " 5", "5" ]
구성
min_gram
: 그램 단위의 최소 문자 길이(슬라이딩 창의 최소 너비). 기본값은 1입니다. max_gram
: 그램의 최대 문자 길이(슬라이딩 창의 최대 너비). 기본값은 2입니다. token_chars
: 토큰에 포함될 문자 클래스. Elasticsearch는 다음에 속하지 않는 문자로 분할됩니다: 기본값은 [](모든 문자 유지)입니다.
예를 들어, 슬라이딩 윈도우(너비 = 3)와 문자 클래스: 문자와 숫자만 있는 토크나이저를 생성합니다.
PUT jsa_index_n-gram
{
"settings": {
"analysis": {
"analyzer": {
"jsa_analyzer": {
"tokenizer": "jsa_tokenizer"
}
},
"tokenizer": {
"jsa_tokenizer": {
"type": "ngram",
"min_gram": 3,
"max_gram": 3,
"token_chars": [
"letter",
"digit"
]
}
}
}
}
}
POST jsa_index_n-gram/_analyze
{
"analyzer": "jsa_analyzer",
"text": "Tut101: Spring 5"
}
자귀:
더 보기:
https://grokonez.com/elasticsearch/elasticsearch-tokenizers-partial-word-tokenizers
Elasticsearch 토큰나이저 – 부분 단어 토큰나이저
Reference
이 문제에 관하여(Elasticsearch 토크나이저 – 부분 단어 토큰나이저), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/loizenai/elasticsearch-tokenizers-partial-word-tokenizers-4i1e텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)