Watson Discovery의 커넥터를 사용해 보았습니다 (ICOS/웹 크롤링)



소개



Watson Disocovery는 기존 Java 기반 크롤러 대신 커넥터를 제공합니다. Connector를 사용하면 UI를 사용하여 다양한 데이터 스토어에 대한 연결이 매우 간단합니다.

문서 Connecting to Data Sources

2019/2월 현재 제공되는 커넥터는 다음과 같습니다.


SalesForce나 Box는 엔터프라이즈 환경이 필요하므로 할애. 이번에는 수중에 간편한 환경이 있다 ①IBM Cloud Object Storage ②WebCrawl을 바꾸어 접속해 보았습니다. 결론에서 말하면, 너무 간단!

1. IBM Cloud Object Storage(ICOS)



ICOS의 버킷에 있는 문서를 크롤링합니다. 만약을 위해(& 다른 데이터스토어에서도 마찬가지)입니다만, 크롤링한 결과의 콜렉션이나 인덱스는 Watson Discovery상에 만들어집니다. 왓슨 디스커버리 컬렉션/색인이 ICOS에 만들어지지는 않습니다.

ICOS 측에서 사전 준비





위와 같이 us-geo의 버킷에 일본어 pdf를 둡니다.
Discovery에서 해당 버킷에 액세스하려면 다음 두 가지 정의 정보가 필요합니다.
  • S3 호환(=hmac 첨부)의 서비스 자격증명
    이 기사
  • 해당 버킷의 엔드포인트 이름


  • 버킷을 만들 때 '회복력'과 '위치'를 지정하면 엔드포인트 이름이 달라집니다. 사용 환경에 맞는 엔드포인트를 적절히 선택하십시오.

    Discovery에서 ICOS 지정




    Coonect to datasource - IBM Cloud Object Storage를 선택합니다.


    전항에서 준비한 Endpoint/Access key ID/Secret Access Key를 입력하고 [Connect] 버튼



    다음을 적절하게 선택하고 "Save & Sync Onjects"버튼
  • 새로 고침주기 (5 분마다, 1 시간마다, 매일 등)
  • 콘텐츠 언어
  • 조회 대상 버킷

  • 이제 크롤링이 시작되고 컬렉션이 만들어집니다. 콘텐츠의 양에 달려 있지만 인덱싱이 완료되면 조회할 수 있습니다.




    2. 웹 크롤러



    Discovery에서 설정




    Coonect to datasource - Web Crawl 선택



    다음을 적절하게 선택하고 "Save & Sync Onjects"버튼
  • 새로 고침주기 (5 분마다, 1 시간마다, 매일 등)
  • 콘텐츠 언어
  • 시작점이되는 URL (홉 수도 지정할 수 있습니다)



  • Lite 플랜의 분은 홉수에 주의





    저는 라이트 플랜에서 했는데 크롤러 홉 수의 기본값이 2이므로 링크를 따라 라이트 플랜의 상한인 1000을 초과했습니다. 테스트적으로 할 수 있다면 사이트에 따라 홉 수를 줄이는 것이 좋습니다. 또한 컬렉션을 삭제하면 상한이 재설정되었습니다. 당월은 더 이상 사용할 수 없다는 것은 아닐 것 같으므로 안심하십시오.

    둘 다 매우 쉽게 크롤링 할 수있었습니다. 끝.

    좋은 웹페이지 즐겨찾기