Elasticsearch 태그 – 구조화된 텍스트 태그

https://grokonez.com/elasticsearch/elasticsearch-tokenizers-structured-text-tokenizers
Elasticsearch 태그 – 구조화된 텍스트 태그
이 강좌에서 우리는 구조화된 텍스트 표기기를 소개할 것이다. 이들은 일반적으로 표지부, 전자메일 주소, 우편번호, 경로 등 구조화된 텍스트와 함께 사용된다.
I. 키워드 표시기keyword 표기기는 가장 간단한 표기기로서 주어진 모든 텍스트를 받아들이고 하나의 용어와 똑같은 텍스트를 출력한다.
예를 들면 다음과 같습니다.

POST _analyze
{
  "tokenizer": "keyword",
  "text": "Java Sample Approach"
}
용어:

[ Java Sample Approach ]
둘모드 태그pattern 표기기는 정규 표현식을 사용하여 텍스트를 단어 구분자와 일치하는 용어로 나누거나 일치하는 텍스트를 용어로 포획한다.
기본 모드는 \W+으로 단어가 아닌 문자가 발생할 때마다 텍스트를 분할합니다.
예를 들면 다음과 같습니다.

POST _analyze
{
  "tokenizer": "pattern",
  "text": "Java_Sample_Approach's tutorials are helpful."
}
약관:

[ "Java_Sample_Approach", "s", "tutorials", "are", "helpful" ]
프로비저닝
  • pattern: Java 정규 표현식, 기본값은 \W+입니다.
  • flags: Java 정규 표현식 플래그.(예: 대/소문자 구분 없음 | 주석) 추가 플래그: regex Pattern
  • group 포획팀은 추출을 영패로 한다.기본값은 -1(버스트)입니다.
  • 예를 들어, 쉼표를 만났을 때 텍스트를 태그로 나누기를 원합니다.
    자세한 내용은 다음을 참조하십시오.
    https://grokonez.com/elasticsearch/elasticsearch-tokenizers-structured-text-tokenizers
    Elasticsearch 태그 – 구조화된 텍스트 태그

    좋은 웹페이지 즐겨찾기