mazon CloudSearch에서 상품 검색 - No.1 데이터 투입
11553 단어 CloudSearchAWS
하고 싶은 일
RDSMS의 LIKE 검색보다 유연하며, 검색엔진의 요령으로 상품 검색을 하는 것을 목표로 한다.
컨디션
사용할 데이터
Wikpedia닌텐도에서 판매하는 게임 이름 일람표 페이지의 링크 대상을 비우고 json 형식의 데이터를 만듭니다.[
{
"type": "add",
"id": 1,
"fields": {
"page_title": "マリオブラザーズ",
"content": "『マリオブラザーズ』は、1983年に発売された任天堂のアクションゲーム。マリオシリーズで初めてマリオの名がタイトルに冠され、マリオという名として主人公が活躍するゲームとしては、マリオシリーズ第1作目にあたる。",
"genre": "固定画面アクションゲーム",
"plat": "アーケード",
"dev": "任天堂",
"pub": "任天堂レジャーシステム",
"producer": "横井軍平",
"designer": "宮本茂",
"programmer": "宮本茂",
"composer": "兼岡行男",
"players": "1 - 2人",
"media": "業務用基板",
"working_dates": "1983年7月14日1983年",
"rating": "CERO:A(全年齢対象)",
"device": "2方向レバー 1ボタン",
"cpu": "メイン:Z80 (@ 3.072 MHz) サウンド:I8039 (@ 730 kHz)",
"sound": "DAC",
"display": "ラスタースキャン 横モニター 256 x 224ピクセル パレット256色",
"etc": "移植されたプラットホームについては本記事#他機種版の項を参照のこと。",
"link_title": "マリオブラザーズ"
}
},
~以下省略~
JSON 파일의 필드는 Amazon CloudSearch를 위한 데이터 준비에 따라 생성됩니다.
type
실행: add 또는 delete.
id
문서의 고유 ID입니다.문서 ID에는 문자나 숫자 및 다음 문자를 사용할 수 있습니다._ - = # ; :/? @ & 문서 ID는 1~128자 이내여야 합니다.
fields
각 문서 필드의 이름과 값 쌍latlon 필드의 값을 지정하려면 위도와 경도를 쉼표 구분 목록으로 지정하십시오.예를 들어, "location field": "35.6628611, -12.694152"입니다.JSON에서 문서를 지정할 때 필드의 값은 비워둘 수 없지만 완전히 생략할 수 있습니다.
채우기 이름
컨텐트
link_title
닌텐도에서 판매하는 게임 제목 일람의 링크 텍스트
page_title
링크 페이지 제목
content
제1단
genre
템플릿에 기재된 유형
plat
템플릿에 기재된 해당 모델
dev
템플릿에 기재된 소스 오픈
pub
템플릿에 기재된 판매자
distributor
템플릿에 기재된 판매자
producer
템플릿에 기재된 프로듀서
director
거푸집 에 기재된 감독
designer
템플릿에 기재된 디자이너
writer
템플릿에 기재된 스키마
programmer
템플릿에 기재된 프로그래머
composer
템플릿 음악
artist
템플릿에 기재된 기술
license
템플릿에 기재된 라이센스
series
템플릿에 기재된 시리즈
ver
템플릿에 기재된 버전
players
템플릿에 기재된 인원수
media
템플릿에 나열된 미디어
publish_date
템플릿에 기재된 발매일
last_release_version
템플릿에 기재된 최신 버전
last_preview_version
템플릿에 기재된 최신 평가판
rating
템플릿에 기재된 객체 나이
contents_icon
템플릿에 기재된 컨텐트 아이콘
download_content
템플릿에 기재된 다운로드 내용
device
템플릿에 기재된 장치
spec
템플릿에 기재된 필수 환경
engine
템플릿에 표시된 엔진
aspect_ratio
템플릿에 기재된 너비
resolution
템플릿에 표시된 해상도
cabinet
템플릿에 표시된 하우징
cpu
템플릿에 기재된 CPU
sound
템플릿의 사운드
display
템플릿에 표시된 모니터
sales
템플릿에 기재된 판매 수량
etc
템플릿에 기재된 기타
검색 도메인 만들기
검색할 상품을 투입하기 위해 검색 영역을 만듭니다.검색 영역은 RDSMS에 비해 테이블에 가까운 개념이지만 한 영역에 정의를 만들고 검색 영역에 검색 대상의 데이터를 정의합니다.CloudSearch는 Apache Solr의 관리 서비스로 Solr의 언어로 검색 영역을 표시하면'모드'다.
Solr의 "Skima"에서 유래했기 때문에 RDBMS의 JOIN에 해당하지 않습니다.비정규화된 데이터를 사용하다.
마법사 시작 및 검색 도메인 정보 입력
마법사 시작
Cloud Search 관리 콘솔에서 "Createa new search domain"버튼을 클릭하여 마법사를 시작합니다.
NAME YOUR DOMAIN
검색 도메인 이름을 Search Doamin Name에 입력합니다.이번에는'cs-games'로 바꿨습니다.업로드 용량 및 검색 성능의 Desired Instance Type 및 고장 방지 Desired Replication Count 는 기본값을 유지합니다.
CONFIGURE INDEX
마법사에 추가된 데이터를 업로드하면 필드 설정의 초기 형태를 제공하기 때문에 커튼으로 만든 json 형식의 파일을 업로드합니다.
REVIEW INDEX CONFIGURATION
업로드하면 JSON에 따라 필드 이름 정의가 자동으로 작성됩니다.대략, 이렇게 사용하고 두 개만 변경합니다.
[
{
"type": "add",
"id": 1,
"fields": {
"page_title": "マリオブラザーズ",
"content": "『マリオブラザーズ』は、1983年に発売された任天堂のアクションゲーム。マリオシリーズで初めてマリオの名がタイトルに冠され、マリオという名として主人公が活躍するゲームとしては、マリオシリーズ第1作目にあたる。",
"genre": "固定画面アクションゲーム",
"plat": "アーケード",
"dev": "任天堂",
"pub": "任天堂レジャーシステム",
"producer": "横井軍平",
"designer": "宮本茂",
"programmer": "宮本茂",
"composer": "兼岡行男",
"players": "1 - 2人",
"media": "業務用基板",
"working_dates": "1983年7月14日1983年",
"rating": "CERO:A(全年齢対象)",
"device": "2方向レバー 1ボタン",
"cpu": "メイン:Z80 (@ 3.072 MHz) サウンド:I8039 (@ 730 kHz)",
"sound": "DAC",
"display": "ラスタースキャン 横モニター 256 x 224ピクセル パレット256色",
"etc": "移植されたプラットホームについては本記事#他機種版の項を参照のこと。",
"link_title": "マリオブラザーズ"
}
},
~以下省略~
검색할 상품을 투입하기 위해 검색 영역을 만듭니다.검색 영역은 RDSMS에 비해 테이블에 가까운 개념이지만 한 영역에 정의를 만들고 검색 영역에 검색 대상의 데이터를 정의합니다.CloudSearch는 Apache Solr의 관리 서비스로 Solr의 언어로 검색 영역을 표시하면'모드'다.
Solr의 "Skima"에서 유래했기 때문에 RDBMS의 JOIN에 해당하지 않습니다.비정규화된 데이터를 사용하다.
마법사 시작 및 검색 도메인 정보 입력
마법사 시작
Cloud Search 관리 콘솔에서 "Createa new search domain"버튼을 클릭하여 마법사를 시작합니다.
NAME YOUR DOMAIN
검색 도메인 이름을 Search Doamin Name에 입력합니다.이번에는'cs-games'로 바꿨습니다.업로드 용량 및 검색 성능의 Desired Instance Type 및 고장 방지 Desired Replication Count 는 기본값을 유지합니다.
CONFIGURE INDEX
마법사에 추가된 데이터를 업로드하면 필드 설정의 초기 형태를 제공하기 때문에 커튼으로 만든 json 형식의 파일을 업로드합니다.
REVIEW INDEX CONFIGURATION
업로드하면 JSON에 따라 필드 이름 정의가 자동으로 작성됩니다.대략, 이렇게 사용하고 두 개만 변경합니다.
SETUP ACCESS POLICIES
검색 도메인에 대한 액세스 정책을 설정합니다.이번에는 Search and Suggester 서비스: Allow all입니다.Document Service: Account Owner only.탭
CONFIRM
여기까지의 설정 내용을 확인합니다.수정 사항이 있으면 왼쪽 아래에 있는 Back을 누르고 돌아갑니다.이 내용이 괜찮으면 오른쪽 아래에 있는 Confirm을 누르십시오.
마법사 끝
Wizard에서 프로그램을 완료하면 인스턴스에 검색 도메인이 생성됩니다.만드는 데 10분 정도 걸리니 조금만 기다려 주세요.
대시보드에서 완료 대기
관리 콘솔에서 생성된 검색 도메인의 상태가 ACTIVE로 변경될 때까지 기다립니다.
데이터 투입
DOCUMENT SOURCE
대시보드에서 Upload Docoments 키를 누릅니다.표시할 대화 상자의 File(s) on mylocal disk를 선택하고 투입할 데이터의 json 파일을 지정합니다.그런 다음 Continue 를 누릅니다.
REVIEW DOCUMENTS
업로드된 json 파일을 읽고 검사합니다.분석을 통해 얻은 건수와 필드를 표시합니다.분석 결과에 오류가 있으면 빨간색 문자로 표시됩니다.오류가 없으면 Upload Documents 키를 누릅니다.
DOCUMENT SUMMARY
업로드가 순조롭게 끝나면 요약으로 추가와 삭제 건수가 표시됩니다.
마지막으로 Finish 키를 눌러 대화 상자를 닫습니다.
단순 검색
대시보드의 Searchable Docoments에 업로드된 JSON 파일 내용에 오류가 없으면 JSON 파일에 등록된 건수와 같습니다.확인 후 새로 표시된 Runa test search에 검색 단어로 "Mario"를 입력하고 Go를 눌러 검색합니다.
↓
검색 결과의 오른쪽에 필드에 후보 정보를 표시하여 작은 면에서 지정한 ganre,plat,pub에서 선별할 수 있도록 합니다.
예정
텍스트 분석 방안여송연을 시도합니다.
시노니미를 이용하기 때문에'FC','가정 전자계산기'와'가정 전자계산기'는 동의어로 사용된다.
Reference
이 문제에 관하여(mazon CloudSearch에서 상품 검색 - No.1 데이터 투입), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/akym03/items/03114e762494100bfbf4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
대시보드의 Searchable Docoments에 업로드된 JSON 파일 내용에 오류가 없으면 JSON 파일에 등록된 건수와 같습니다.확인 후 새로 표시된 Runa test search에 검색 단어로 "Mario"를 입력하고 Go를 눌러 검색합니다.
↓
검색 결과의 오른쪽에 필드에 후보 정보를 표시하여 작은 면에서 지정한 ganre,plat,pub에서 선별할 수 있도록 합니다.
예정
텍스트 분석 방안여송연을 시도합니다.
시노니미를 이용하기 때문에'FC','가정 전자계산기'와'가정 전자계산기'는 동의어로 사용된다.
Reference
이 문제에 관하여(mazon CloudSearch에서 상품 검색 - No.1 데이터 투입), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/akym03/items/03114e762494100bfbf4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(mazon CloudSearch에서 상품 검색 - No.1 데이터 투입), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/akym03/items/03114e762494100bfbf4텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)