Elasticsearch 토크나이저 – 단어 지향 토큰나이저
3495 단어 wordelasticsearchtokenizers
Elasticsearch 토크나이저 – 단어 지향 토큰나이저
토크나이저는 문자 스트림을 개별 토큰(문자, 단어...)으로 나눈 다음 토큰 스트림을 출력합니다. 또한 토크나이저를 사용하여 각 용어의 순서나 위치(구 및 단어 근접 쿼리의 경우) 또는 해당 용어가 나타내는 원래 단어의 시작 및 끝 문자 오프셋(검색 스니펫 강조 표시)을 기록할 수 있습니다.
이 튜토리얼에서는 전체 텍스트를 개별 단어로 토큰화하는 Word Oriented Tokenizer를 사용하는 방법을 살펴보겠습니다.
1. 표준 토큰나이저
standard
토크나이저는 문법 기반 토큰화를 제공합니다.
POST _analyze
{
"tokenizer": "standard",
"text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
토큰:
{
"tokens": [
{
"token": "The",
"start_offset": 0,
"end_offset": 3,
"type": "",
"position": 0
},
{
"token": "2",
"start_offset": 4,
"end_offset": 5,
"type": "",
"position": 1
},
{
"token": "QUICK",
"start_offset": 6,
"end_offset": 11,
"type": "",
"position": 2
},
{
"token": "Brown",
"start_offset": 12,
"end_offset": 17,
"type": "",
"position": 3
},
{
"token": "Foxes",
"start_offset": 18,
"end_offset": 23,
"type": "",
"position": 4
},
{
"token": "jumped",
"start_offset": 24,
"end_offset": 30,
"type": "",
"position": 5
},
{
"token": "over",
"start_offset": 31,
"end_offset": 35,
"type": "",
"position": 6
},
{
"token": "the",
"start_offset": 36,
"end_offset": 39,
"type": "",
"position": 7
},
{
"token": "lazy",
"start_offset": 40,
"end_offset": 44,
"type": "",
"position": 8
},
{
"token": "dog's",
"start_offset": 45,
"end_offset": 50,
"type": "",
"position": 9
},
{
"token": "bone",
"start_offset": 51,
"end_offset": 55,
"type": "",
"position": 10
}
]
}
일을 단순하게 유지하기 위해 다음과 같이 토큰에서 용어를 작성할 수 있습니다.
[ The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ]
최대 토큰 길이
최대 토큰 길이를 구성할 수 있습니다(
max_token_length
- 기본값은 255).토큰이 이 길이를 초과하면
max_token_length
간격으로 분할됩니다.예를 들어
max_token_length
를 4로 설정하면 QUICK가 QUIC와 K로 분리됩니다.더 보기:
https://grokonez.com/elasticsearch/elasticsearch-tokenizers-word-oriented-tokenizers
Elasticsearch 토크나이저 – 단어 지향 토큰나이저
Reference
이 문제에 관하여(Elasticsearch 토크나이저 – 단어 지향 토큰나이저), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/loizenai/elasticsearch-tokenizers-word-oriented-tokenizers-1chb텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)