mazon CloudSearch에서 상품 검색 - No.1 데이터 투입

11553 단어 CloudSearchAWS

하고 싶은 일


RDSMS의 LIKE 검색보다 유연하며, 검색엔진의 요령으로 상품 검색을 하는 것을 목표로 한다.

컨디션

  • Amazon CloudSearch API 버전 2013-01-01
  • 사용할 데이터


    Wikpedia닌텐도에서 판매하는 게임 이름 일람표 페이지의 링크 대상을 비우고 json 형식의 데이터를 만듭니다.
    [
        {
            "type": "add",
            "id": 1,
            "fields": {
                "page_title": "マリオブラザーズ",
                "content": "『マリオブラザーズ』は、1983年に発売された任天堂のアクションゲーム。マリオシリーズで初めてマリオの名がタイトルに冠され、マリオという名として主人公が活躍するゲームとしては、マリオシリーズ第1作目にあたる。",
                "genre": "固定画面アクションゲーム",
                "plat": "アーケード",
                "dev": "任天堂",
                "pub": "任天堂レジャーシステム",
                "producer": "横井軍平",
                "designer": "宮本茂",
                "programmer": "宮本茂",
                "composer": "兼岡行男",
                "players": "1 - 2人",
                "media": "業務用基板",
                "working_dates": "1983年7月14日1983年",
                "rating": "CERO:A(全年齢対象)",
                "device": "2方向レバー 1ボタン",
                "cpu": "メイン:Z80 (@ 3.072 MHz) サウンド:I8039 (@ 730 kHz)",
                "sound": "DAC",
                "display": "ラスタースキャン 横モニター 256 x 224ピクセル パレット256色",
                "etc": "移植されたプラットホームについては本記事#他機種版の項を参照のこと。",
                "link_title": "マリオブラザーズ"
            }
        },
    ~以下省略~
    
    JSON 파일의 필드는 Amazon CloudSearch를 위한 데이터 준비에 따라 생성됩니다.
    type
    실행: add 또는 delete.
    id
    문서의 고유 ID입니다.문서 ID에는 문자나 숫자 및 다음 문자를 사용할 수 있습니다.​_ - = # ; :/? @ & 문서 ID는 1~128자 이내여야 합니다.
    fields
    각 문서 필드의 이름과 값 쌍latlon 필드의 값을 지정하려면 위도와 경도를 쉼표 구분 목록으로 지정하십시오.예를 들어, "location field": "35.6628611, -12.694152"입니다.JSON에서 문서를 지정할 때 필드의 값은 비워둘 수 없지만 완전히 생략할 수 있습니다.
    채우기 이름
    컨텐트
    link_title
    닌텐도에서 판매하는 게임 제목 일람의 링크 텍스트
    page_title
    링크 페이지 제목
    content
    제1단
    genre
    템플릿에 기재된 유형
    plat
    템플릿에 기재된 해당 모델
    dev
    템플릿에 기재된 소스 오픈
    pub
    템플릿에 기재된 판매자
    distributor
    템플릿에 기재된 판매자
    producer
    템플릿에 기재된 프로듀서
    director
    거푸집 에 기재된 감독
    designer
    템플릿에 기재된 디자이너
    writer
    템플릿에 기재된 스키마
    programmer
    템플릿에 기재된 프로그래머
    composer
    템플릿 음악
    artist
    템플릿에 기재된 기술
    license
    템플릿에 기재된 라이센스
    series
    템플릿에 기재된 시리즈
    ver
    템플릿에 기재된 버전
    players
    템플릿에 기재된 인원수
    media
    템플릿에 나열된 미디어
    publish_date
    템플릿에 기재된 발매일
    last_release_version
    템플릿에 기재된 최신 버전
    last_preview_version
    템플릿에 기재된 최신 평가판
    rating
    템플릿에 기재된 객체 나이
    contents_icon
    템플릿에 기재된 컨텐트 아이콘
    download_content
    템플릿에 기재된 다운로드 내용
    device
    템플릿에 기재된 장치
    spec
    템플릿에 기재된 필수 환경
    engine
    템플릿에 표시된 엔진
    aspect_ratio
    템플릿에 기재된 너비
    resolution
    템플릿에 표시된 해상도
    cabinet
    템플릿에 표시된 하우징
    cpu
    템플릿에 기재된 CPU
    sound
    템플릿의 사운드
    display
    템플릿에 표시된 모니터
    sales
    템플릿에 기재된 판매 수량
    etc
    템플릿에 기재된 기타

    검색 도메인 만들기


    검색할 상품을 투입하기 위해 검색 영역을 만듭니다.검색 영역은 RDSMS에 비해 테이블에 가까운 개념이지만 한 영역에 정의를 만들고 검색 영역에 검색 대상의 데이터를 정의합니다.CloudSearch는 Apache Solr의 관리 서비스로 Solr의 언어로 검색 영역을 표시하면'모드'다.
    Solr의 "Skima"에서 유래했기 때문에 RDBMS의 JOIN에 해당하지 않습니다.비정규화된 데이터를 사용하다.

    마법사 시작 및 검색 도메인 정보 입력


    마법사 시작


    Cloud Search 관리 콘솔에서 "Createa new search domain"버튼을 클릭하여 마법사를 시작합니다.

    NAME YOUR DOMAIN


    검색 도메인 이름을 Search Doamin Name에 입력합니다.이번에는'cs-games'로 바꿨습니다.업로드 용량 및 검색 성능의 Desired Instance Type 및 고장 방지 Desired Replication Count 는 기본값을 유지합니다.

    CONFIGURE INDEX


    마법사에 추가된 데이터를 업로드하면 필드 설정의 초기 형태를 제공하기 때문에 커튼으로 만든 json 형식의 파일을 업로드합니다.

    REVIEW INDEX CONFIGURATION


    업로드하면 JSON에 따라 필드 이름 정의가 자동으로 작성됩니다.대략, 이렇게 사용하고 두 개만 변경합니다.
  • 모든 필드의 Analysis Scheeme를 Japanese로 변경합니다.
  • distributor, genre, plat, pub의 Type을 literal로 변경하고 Facet을 on으로 설정합니다.작은 면은 검색 결과를 선별하고 선별하는 데 사용되는 종류로 사용할 수 있다.

  • SETUP ACCESS POLICIES


    검색 도메인에 대한 액세스 정책을 설정합니다.이번에는 Search and Suggester 서비스: Allow all입니다.Document Service: Account Owner only.탭

    CONFIRM


    여기까지의 설정 내용을 확인합니다.수정 사항이 있으면 왼쪽 아래에 있는 Back을 누르고 돌아갑니다.이 내용이 괜찮으면 오른쪽 아래에 있는 Confirm을 누르십시오.

    마법사 끝


    Wizard에서 프로그램을 완료하면 인스턴스에 검색 도메인이 생성됩니다.만드는 데 10분 정도 걸리니 조금만 기다려 주세요.

    대시보드에서 완료 대기


    관리 콘솔에서 생성된 검색 도메인의 상태가 ACTIVE로 변경될 때까지 기다립니다.

    데이터 투입


    DOCUMENT SOURCE


    대시보드에서 Upload Docoments 키를 누릅니다.표시할 대화 상자의 File(s) on mylocal disk를 선택하고 투입할 데이터의 json 파일을 지정합니다.그런 다음 Continue 를 누릅니다.

    REVIEW DOCUMENTS


    업로드된 json 파일을 읽고 검사합니다.분석을 통해 얻은 건수와 필드를 표시합니다.분석 결과에 오류가 있으면 빨간색 문자로 표시됩니다.오류가 없으면 Upload Documents 키를 누릅니다.

    DOCUMENT SUMMARY


    업로드가 순조롭게 끝나면 요약으로 추가와 삭제 건수가 표시됩니다.
    마지막으로 Finish 키를 눌러 대화 상자를 닫습니다.

    단순 검색


    대시보드의 Searchable Docoments에 업로드된 JSON 파일 내용에 오류가 없으면 JSON 파일에 등록된 건수와 같습니다.확인 후 새로 표시된 Runa test search에 검색 단어로 "Mario"를 입력하고 Go를 눌러 검색합니다.



    검색 결과의 오른쪽에 필드에 후보 정보를 표시하여 작은 면에서 지정한 ganre,plat,pub에서 선별할 수 있도록 합니다.

    예정


    텍스트 분석 방안여송연을 시도합니다.
    시노니미를 이용하기 때문에'FC','가정 전자계산기'와'가정 전자계산기'는 동의어로 사용된다.

    좋은 웹페이지 즐겨찾기