초보자가 3분 안에 테스트 데이터를 포함한 Elasticsearch(7계)를 사용할 때까지

소개

배급처에서 Elasticsearch를 사용하기 위해 최근 공부를 시작했습니다.
업무 데이터라면 무언가 있으면 무서워서 스스로 테스트 데이터를 준비하고,
바삭 바삭하고 부서져도 좋은 환경을 만들려고 생각한 것이 계기입니다.

최단 3분에 테스트 데이터가 포함된 Elasticsearch 구축을 목표로 합니다(길어도 5분 정도입니다)

준비

Docker 및 Docker Compose를 사용할 수있는 환경

버전

$ docker -v
Docker version 19.03.8, build afacb8b7f0

파일 구성은 궁극적으로 이런 느낌이 될 것입니다

파일 구성

.
├── KEN_ALL.CSV
└── docker-compose.yml

Docker Compose 파일 만들기

docker-compose.yml

version: "3.0"

services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.7.0
    environment:
      - discovery.type=single-node
      - cluster.name=docker-cluster
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    ports:
      - 9200:9200
    volumes:
      - es-data:/usr/share/elasticsearch/data
  kibana:
    image: docker.elastic.co/kibana/kibana:7.7.0
    ports:
      - 5601:5601

volumes:
  es-data:
    driver: local

Docker Compose 시작

Elasticsearch와 Kibana 출시

$ docker-compose up -d

이제 Elasticsearch와 Kibana가 시작됩니다.

테스트 데이터 준비

이번에는 우체국이 공개하고있는 우편 번호 데이터의 전국 일괄을 이용합니다.
htps //w w. 포스트. 자판포 st. jp / jp close / dl / Kogaki-ji p. HTML

이유는 친숙한 데이터이므로 직관적으로 취급할 수 있어 예상을 세워 분석을 할 수 있기 때문입니다.
(예를 들어, 현의 정보로 그룹화하면 47이 될 것 같은)

# 郵便番号データをダウンロード
$ wget https://www.post.japanpost.jp/zipcode/dl/kogaki/zip/ken_all.zip

# 解凍
$ unzip ken_all.zip

# 文字化け対策でUTF-8に変換
$ nkf -w --overwrite KEN_ALL.CSV

# 中身のチェック
$ cat KEN_ALL.CSV | head -n 3
01101,"060  ","0600000","ホッカイドウ","サッポロシチュウオウク","イカニケイサイガナイバアイ","北海道","札幌市中央区","以下に掲載がない場合",0,0,0,0,0,0
01101,"064  ","0640941","ホッカイドウ","サッポロシチュウオウク","アサヒガオカ","北海道","札幌市中央区","旭ケ丘",0,0,1,0,0,0
01101,"060  ","0600041","ホッカイドウ","サッポロシチュウオウク","オオドオリヒガシ","北海道","札幌市中央区","大通東",0,0,1,0,0,0

Kibana로 테스트 데이터를 전송

Machine Learning 선택

업로드 파일 선택

CSV 파일 선택

빨간색 프레임 부분을 눌러 다운로드 한 KEN_ALL.CSV를 선택합니다.

Override Setting 선택

이대로는 기본 열 이름이므로 설정합니다.

열 이름 설정

Edit field names의 각 항목을 다음으로 변경합니다.

jis

postcode5

postcode

prefectureKana

cityKana

townAreaKana

prefecture

city

townArea

isOneTownByMultiPostcode

isNeedSmallAreaAddress

isChome

isMultiTownByOnePostcode

updated

updateReason

색인 만들기

가져오기 선택

색인 이름 설정

Index 이름 : zipcodes를 붙여 Import를 누르면 작성할 수 있습니다.

데이터 확인

Dev Tools를 선택하여 다음 요청을 작성하고 실행하면 테스트 데이터를 볼 수 있습니다.

GET zipcodes/_search
{
  "query": {
    "match_all": {}
  }
}

결론

Kibana의 기능을 사용하여 테스트 데이터를 쉽게 흘리는 방법을 소개했습니다.
이 방법은, 배속처의 멘토로부터 직전해 주신 것입니다.
이 장소를 빌려 주셔서 감사합니다. 감사합니다.

CSV 파일이라면 마찬가지로 데이터를 흘릴 수 있으므로 꼭 이용해보십시오.

참고 사이트

우편 번호의 컬럼명을 참고로 했습니다 htps : // 이 m / y 호소 k / ms / b b7 9 f0254d20 ad279

Compose 파일을 참고했습니다 htps : // 이 m / 돼지 / ms / 6308 3bfd0 아 0c58fdb

Reference

이 문제에 관하여(초보자가 3분 안에 테스트 데이터를 포함한 Elasticsearch(7계)를 사용할 때까지), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/satto_sann/items/0ccb1f28af8b3f103949

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)