Data Indexing

색인 (indexing)

데이터가 검색될 수 있는 구조로 변경하기 위해 원본 문서를 검색어 토큰들으로 변환하여 저장하는 일련의 과정이다.

인덱스 (index, indices)

색인 과정을 거친 결과물, 또는 색인된 데이터가 저장되는 저장소이다.
또한 Elasticsearch에서 도큐먼트들의 논리적인 집합을 표현하는 단위이기도 하다.

검색 (search)

인덱스에 들어있는 검색어 토큰들을 포함하고 있는 문서를 찾아가는 과정이다.

질의 (query)

사용자가 원하는 문서를 찾거나 집계 결과를 출력하기 위해 검색 시 입력하는 검색어 또는 검색 조건이다.

Cluster

Elasticsearch의 노드들은 클라이언트와의 통신을 위한 http 포트(9200~9299), 노드 간의 데이터 교환을 위한 tcp 포트 (9300~9399) 총 2개의 네트워크 통신을 열어두고 있다. 일반적으로 1개의 물리 서버마다 하나의 노드를 실행하는 것을 권장하고 있다.

Index & Shards

Elasticsearch 에서는 단일 데이터 단위를 도큐먼트(document) 라고 하며 이 도큐먼트를 모아놓은 집합을 인덱스(Index) 라고 한다.
인덱스라는 단어가 여러 뜻으로 사용되기 때문에 데이터 저장 단위인 인덱스는 인디시즈(indices) 라고 표현하기도 한다.
인덱스는 기본적으로 샤드(shard)라는 단위로 분리되고 각 노드에 분산되어 저장이 된다. 샤드는 루씬의 단일 검색 인스턴스이다. 다음은 하나의 인덱스가 5개의 샤드로 저장되도록 설정한 예이다.

Primary Shard & Replica

인덱스를 생성할 때 별도의 설정을 하지 않으면 7.0 버전부터는 디폴트로 1개의 샤드로 인덱스가 구성되며 6.x 이하 버전에서는 5개로 구성된다.
클러스터에 노드를 추가하게 되면 샤드들이 각 노드들로 분산되고 디폴트로 1개의 복제본을 생성한다. 처음 생성된 샤드를 프라이머리 샤드(Primary Shard), 복제본은 리플리카(Replica) 라고 부른다. 예를 들어 한 인덱스가 5개의 샤드로 구성어 있고, 클러스터가 4개의 노드로 구성되어 있다고 가정하면 각각 5개의 프라이머리 샤드와 복제본, 총 10개의 샤드들이 전체 노드에 골고루 분배되어 저장된다.

같은 샤드와 복제본은 동일한 데이터를 담고 있으며 반드시 서로 다른 노드에 저장된다.
만약에 위 그림에서 Node-3 노드가 시스템 다운이나 네트워크 단절등으로 사라지면 이 클러스터는 Node-3 에 있던 0번과 4번 샤드들을 유실하게 된다.
하지만 아직 다른 노드들 Node-1, Node-2 에 0번, 4번 샤드가 남아있으므로 여전히 전체 데이터는 유실이 없이 사용이 가능하다.

처음에 클러스터는 먼저 유실된 노드가 복구 되기를 기다린다. 하지만 타임아웃이 지나 더 유실된 노드가 복구되지 않는다고 판단이 되면 Elasticsearch는 복제본이 사라져 1개만 남은 0번, 4번 샤드들의 복제를 시작한다. 처음에 4개였던 노드가 3개로 줄어도 복제가 끝나면 0~4번 까지의 프라이머리 샤드, 복제본이 각각 5개씩 총 10개의 데이터로 유지된다.

RESTFul 한 시스템에서의 데이터 처리

입력 : PUT http://user.com/kim -d {"name":"kim", "age":38, "gender":"m"}
조회 : GET http://user.com/kim
삭제 : DELETE http://user.com/kim

CRUD

URL 구조

http://<호스트>:<포트>/<인덱스>/_doc/<도큐먼트 id>

입력(PUT)

request

my_index/_doc/1 최초 입력
PUT my_index/_doc/1
{
  "name":"Jongmin Kim",
  "message":"안녕하세요 Elasticsearch"
}

response

my_index/_doc/1 최초 입력 결과
{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 1,
  "result" : "created",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 0,
  "_primary_term" : 1
}

조회(GET)

request

my_index/_doc/1 도큐먼트 조회
GET my_index/_doc/1

response

my_index/_doc/1 도큐먼트 조회 결과
{
  "_index" : "my_index",
  "_type" : "_doc",
  "_id" : "1",
  "_version" : 2,
  "_seq_no" : 1,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "name" : "Jongmin Kim",
    "message" : "안녕하세요 Elasticsearch"
  }
}

출처 : https://esbook.kimjmin.net/

Author And Source

이 문제에 관하여([블로그 따라하기] Elastic 가이드북), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@c3epmos/블로그-따라하기-Elastic-가이드북

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

[블로그 따라하기] Elastic 가이드북

Data Indexing

색인 (indexing)

인덱스 (index, indices)

검색 (search)

질의 (query)

Cluster

Index & Shards

Primary Shard & Replica

RESTFul 한 시스템에서의 데이터 처리

CRUD

URL 구조

입력(PUT)

request

response

조회(GET)

request

response

Author And Source

좋은 웹페이지 즐겨찾기