MarkLogic10_DB에 데이터 로드(5가지 포켓)

MarkLogic이 설치되면 데이터가 로드됩니다.
저번 보도에는 간단한 동작 확인용 데이터 로드 방법이 기재되어 있는데 대량의 데이터가 어떻게 등록되었는지 바로 사용할 수 있는 보도가 있다.
데이터가 로드되기 전에
이 NosqlDB는 OracleDB 등 RDBMS와 달리 ETL이 필요하지 않습니다.
ASIS에서는 테이블 정의 등의 작업 없이 데이터를 가져올 수 있습니다.
사용할 수 있는 문서 유형은 다음과 같습니다.
  • xml(Extensible Markup Language): 기본 문서 유형입니다.팔렌스 등도 xml을 전제로
  • JSON(JavaScript Object Notation): xml과 같은 구조 데이터입니다.인터넷 앱에서 가격을 반납할 때 JSON이 많았다
  • TEXT: 읽어들일 수 있지만 구조는 없습니다.
  • RDF(Resource Description Framework): 최초의 이해에 대해서 참고를 해봤습니다.
  • 바이너리: 이미지나 오피스 문서 등.다른 데이터와 같이 저장할 수 있다.참조 시 URL을 통해 액세스 및 다운로드
  •  memo1
    다음 설명에서 CSV는 가져올 때 xml 형식으로 변환되면 데이터를 처리하기 쉽다.따라서 실제 RDBMS에서 이동할 때는 CSV로 내보내서 마크로틱을 가져오는 것이 좋다고 생각합니다.(어렵지 않음)
     memo2
    반대로marklogic에서 데이터를 내보낼 때, 조회 컨트롤러로 조회할까요, 아니면 Corb로 조회할까요?
    데이터 로드 5가지
    5분의 1 쪽지를 다시 불러오기 (가장 빠르다)
    쿼리 콘솔에서 xdmp:document insert () 함수를 사용합니다.기본적으로 모두 동작 확인용이다.
    2/5 Webdav(간편한 준비)
    Webdav 기능은 GUI를 통해 쉽게 저장할 수 있습니다.
    그러나 Webdav이기 때문에 불러오는 데 시간이 걸리고 파일 크기가 크면 안 됩니다.
    3/5 파일 시스템에서 문서 불러오기(초보자용)
    쿼리 콘솔에서 로컬 파일을 다음과 같이 document load로 입력할 수 있습니다.(파일 지정을 통해 문서 가져오기)
  • 소스 코드
  • xquery version "1.0-ml";
    (: xmlns="xdmp:document-load" は必須:)
    (: uriを設定するoption :)
    (: collectionを設定するoption :)
    xdmp:document-load("C:\sample/helloworld2.xml",
      <options xmlns="xdmp:document-load"> 
        <uri>/documents/sample/helloworld3.xml</uri> 
        <collections>
          <collection>myCollection1</collection> 
        </collections>
      </options>)
    
  • 샘플 데이터(C:\sample/helloworld2.xml)
  • <?xml version="1.0" encoding="UTF-8"?>
    <root>
        <message>Hello2</message>
        <message>World2</message>
    </root>
    
    - 이미지
     
    4/5FLWOR로 한 번에 불러오기 (ML 가기 시작)
    쿼리 콘솔에서 다음 FLWOR 공식을 사용하여 문서 로드에 로컬 파일을 투입할 수 있습니다.(지정된 폴더를 통해 가져오기)
  • 소스 코드
  • (: namespaceの指定は必須 :)
    (: filesystem-directoryでローカルディレクトリの指定 :)
    (: uri指定で/hogehoge/配下になるように指定しています :)
    
    declare namespace dir="http://marklogic.com/xdmp/directory";
    for $d in xdmp:filesystem-directory("C:\sample\sample_many_data")//dir:entry
    return xdmp:document-load($d//dir:pathname,
    <options xmlns="xdmp:document-load">
      <uri>/hogehoge/{fn:string($d//dir:filename)}</uri>
      <collections>
      <collection>sample</collection>
      </collections>
      <format>xml</format>
    </options>)
    
  • 샘플 데이터
    폴더와 데이터를 수정하려면 3/5 파일 시스템 로드 문서를 참조하십시오
  • .
  • 이미지
  •  
    5/5 ① mlcp(Mark Logic Content Pump) ② mlcp로 CSV 획득(일반 사용자용)
    ① mlcp로 폴더를 지정하여 여러 데이터 투입
  • 명령
      C:\sample\mlcp-10.0.4\bin\mlcp.bat -options_file "C:\sample\sample_mlcp\mlcp-import-options.txt"  
  • options_file 설정
  • import
    -mode
    local
    -host
    localhost
    -port
    8046
    -username
    admin
    -password
    admin
    -input_file_path 
    C:\sample\sample_mlcp\files
    -output_uri_replace
    "/C:/sample,'hogehoge'"
    
  • 샘플 데이터
    폴더와 데이터를 수정하려면 3/5 파일 시스템 로드 문서를 참조하십시오
  • .
  • 이미지
     
  •   
    ② mlcp로 폴더를 지정하여 CSV 데이터 투입
  • 명령
  • C:\sample\mlcp-10.0.4\bin\mlcp.bat -options_file "C:\sample\sample_mlcp\mlcp-import-options2.txt"
  • options_file 설정
  • import
    -mode
    local
    -host
    localhost
    -port
    8046
    -username
    admin
    -password
    admin
    -input_file_type
    delimited_text
    -input_file_path 
    C:\sample\sample_mlcp\csvfiles
    -output_uri_prefix
    /test/
    -output_uri_replace
    "/C:/sample,'hogehoge'"
    -document_type
    xml
    
  • 샘플 데이터
    ID 부분으로 URI를 결정하기 때문에 유일해야 합니다.
  • 중복되면 덮어쓰기
    id,word1,word2,word3
    001,aaa,bbb,ccc
    002,aaa,bbb,ddd
    
    - 이미지
      
    생각한 대로 흡수되었다.
      
    결론적으로 MLCP가 가장 빠르기 때문에 5를 사용하는 것이 좋습니다.
    MLCP를 사용할 때 로직을 표시하는 관리 화면에 XDBC 서버를 설정하는 것을 잊지 마십시오.
    『 제공된 모든 양은 여기에 있습니다 』
  • MarkLogic ContentPump: 데이터베이스에서 많은 양의 문서를 읽을 수 있는 명령줄 도구
  • REST API: 프로그래밍 언어에 의존하지 않고 문서를 데이터베이스에 쓰는 방법
  • Java AP: Java 코드로 데이터베이스에 문서를 쓰는 Java 클래스
  • Node.js API:Node.js 코드에 사용되는 데이터베이스에 문서를 쓰는 노드입니다.js클래스
  • XCC:자바야.NET 응용 프로그램이 MarkLogic 데이터베이스에 문서를 쓰는 방법
  • XQuery 함수:QueryConsole 또는 XQuery 응용 프로그램에서 데이터베이스에 문서를 쓰는 방법
  • 자바스크립트 함수:QueryConsole 또는 자바스크립트 응용 프로그램에서 데이터베이스에 문서 쓰기
  • WebDAV: 문서 드래그 및 드롭 가능
  • MarkLogic Connector for Hadoop: Hadoop Map Reduce의 입력 소스 또는 출력 목적지MarkLogic
  • 활용
  • CPF(Conntent Processing Framework): 파이프라인 프레임워크에서 데이터베이스로 읽을 때 문서 변환 ※ MS Office 또는 PDF 형식의 문서를 변환하는 XML 등
  • 그게 다야.

    좋은 웹페이지 즐겨찾기