Watson Discovery의 커넥터를 사용해 보았습니다 (ICOS/웹 크롤링)

소개

Watson Disocovery는 기존 Java 기반 크롤러 대신 커넥터를 제공합니다. Connector를 사용하면 UI를 사용하여 다양한 데이터 스토어에 대한 연결이 매우 간단합니다.

문서

Connecting to Data Sources

2019/2월 현재 제공되는 커넥터는 다음과 같습니다.

SalesForce나 Box는 엔터프라이즈 환경이 필요하므로 할애. 이번에는 수중에 간편한 환경이 있다 ①IBM Cloud Object Storage ②WebCrawl을 바꾸어 접속해 보았습니다. 결론에서 말하면, 너무 간단!

1. IBM Cloud Object Storage(ICOS)

ICOS의 버킷에 있는 문서를 크롤링합니다. 만약을 위해(& 다른 데이터스토어에서도 마찬가지)입니다만, 크롤링한 결과의 콜렉션이나 인덱스는 Watson Discovery상에 만들어집니다. 왓슨 디스커버리 컬렉션/색인이 ICOS에 만들어지지는 않습니다.

ICOS 측에서 사전 준비

위와 같이 us-geo의 버킷에 일본어 pdf를 둡니다.
Discovery에서 해당 버킷에 액세스하려면 다음 두 가지 정의 정보가 필요합니다.

S3 호환(=hmac 첨부)의 서비스 자격증명
이 기사

해당 버킷의 엔드포인트 이름

버킷을 만들 때 '회복력'과 '위치'를 지정하면 엔드포인트 이름이 달라집니다. 사용 환경에 맞는 엔드포인트를 적절히 선택하십시오.

Discovery에서 ICOS 지정

Coonect to datasource - IBM Cloud Object Storage를 선택합니다.

전항에서 준비한 Endpoint/Access key ID/Secret Access Key를 입력하고 [Connect] 버튼

다음을 적절하게 선택하고 "Save & Sync Onjects"버튼

새로 고침주기 (5 분마다, 1 시간마다, 매일 등)

콘텐츠 언어

조회 대상 버킷

이제 크롤링이 시작되고 컬렉션이 만들어집니다. 콘텐츠의 양에 달려 있지만 인덱싱이 완료되면 조회할 수 있습니다.

2. 웹 크롤러

Discovery에서 설정

Coonect to datasource - Web Crawl 선택

다음을 적절하게 선택하고 "Save & Sync Onjects"버튼

새로 고침주기 (5 분마다, 1 시간마다, 매일 등)

콘텐츠 언어

시작점이되는 URL (홉 수도 지정할 수 있습니다)

Lite 플랜의 분은 홉수에 주의

저는 라이트 플랜에서 했는데 크롤러 홉 수의 기본값이 2이므로 링크를 따라 라이트 플랜의 상한인 1000을 초과했습니다. 테스트적으로 할 수 있다면 사이트에 따라 홉 수를 줄이는 것이 좋습니다. 또한 컬렉션을 삭제하면 상한이 재설정되었습니다. 당월은 더 이상 사용할 수 없다는 것은 아닐 것 같으므로 안심하십시오.

둘 다 매우 쉽게 크롤링 할 수있었습니다. 끝.

Reference

이 문제에 관하여(Watson Discovery의 커넥터를 사용해 보았습니다 (ICOS/웹 크롤링)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ishida330/items/a6bf1ff1a39ab0f15f7b

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다