Elasticsearch 토크나이저 – 단어 지향 토큰나이저

https://grokonez.com/elasticsearch/elasticsearch-tokenizers-word-oriented-tokenizers

Elasticsearch 토크나이저 – 단어 지향 토큰나이저

토크나이저는 문자 스트림을 개별 토큰(문자, 단어...)으로 나눈 다음 토큰 스트림을 출력합니다. 또한 토크나이저를 사용하여 각 용어의 순서나 위치(구 및 단어 근접 쿼리의 경우) 또는 해당 용어가 나타내는 원래 단어의 시작 및 끝 문자 오프셋(검색 스니펫 강조 표시)을 기록할 수 있습니다.

이 튜토리얼에서는 전체 텍스트를 개별 단어로 토큰화하는 Word Oriented Tokenizer를 사용하는 방법을 살펴보겠습니다.

1. 표준 토큰나이저


standard 토크나이저는 문법 기반 토큰화를 제공합니다.

POST _analyze
{
  "tokenizer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

토큰:

{
  "tokens": [
    {
      "token": "The",
      "start_offset": 0,
      "end_offset": 3,
      "type": "",
      "position": 0
    },
    {
      "token": "2",
      "start_offset": 4,
      "end_offset": 5,
      "type": "",
      "position": 1
    },
    {
      "token": "QUICK",
      "start_offset": 6,
      "end_offset": 11,
      "type": "",
      "position": 2
    },
    {
      "token": "Brown",
      "start_offset": 12,
      "end_offset": 17,
      "type": "",
      "position": 3
    },
    {
      "token": "Foxes",
      "start_offset": 18,
      "end_offset": 23,
      "type": "",
      "position": 4
    },
    {
      "token": "jumped",
      "start_offset": 24,
      "end_offset": 30,
      "type": "",
      "position": 5
    },
    {
      "token": "over",
      "start_offset": 31,
      "end_offset": 35,
      "type": "",
      "position": 6
    },
    {
      "token": "the",
      "start_offset": 36,
      "end_offset": 39,
      "type": "",
      "position": 7
    },
    {
      "token": "lazy",
      "start_offset": 40,
      "end_offset": 44,
      "type": "",
      "position": 8
    },
    {
      "token": "dog's",
      "start_offset": 45,
      "end_offset": 50,
      "type": "",
      "position": 9
    },
    {
      "token": "bone",
      "start_offset": 51,
      "end_offset": 55,
      "type": "",
      "position": 10
    }
  ]
}

일을 단순하게 유지하기 위해 다음과 같이 토큰에서 용어를 작성할 수 있습니다.

[ The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ]

최대 토큰 길이



최대 토큰 길이를 구성할 수 있습니다(max_token_length - 기본값은 255).
토큰이 이 길이를 초과하면 max_token_length 간격으로 분할됩니다.
예를 들어 max_token_length를 4로 설정하면 QUICK가 QUIC와 K로 분리됩니다.

더 보기:

https://grokonez.com/elasticsearch/elasticsearch-tokenizers-word-oriented-tokenizers

Elasticsearch 토크나이저 – 단어 지향 토큰나이저

좋은 웹페이지 즐겨찾기