Watson Discovery의 커넥터를 사용해 보았습니다 (ICOS/웹 크롤링)
소개
Watson Disocovery는 기존 Java 기반 크롤러 대신 커넥터를 제공합니다. Connector를 사용하면 UI를 사용하여 다양한 데이터 스토어에 대한 연결이 매우 간단합니다.
문서 Connecting to Data Sources
2019/2월 현재 제공되는 커넥터는 다음과 같습니다.
SalesForce나 Box는 엔터프라이즈 환경이 필요하므로 할애. 이번에는 수중에 간편한 환경이 있다 ①IBM Cloud Object Storage ②WebCrawl을 바꾸어 접속해 보았습니다. 결론에서 말하면, 너무 간단!
1. IBM Cloud Object Storage(ICOS)
ICOS의 버킷에 있는 문서를 크롤링합니다. 만약을 위해(& 다른 데이터스토어에서도 마찬가지)입니다만, 크롤링한 결과의 콜렉션이나 인덱스는 Watson Discovery상에 만들어집니다. 왓슨 디스커버리 컬렉션/색인이 ICOS에 만들어지지는 않습니다.
ICOS 측에서 사전 준비
위와 같이 us-geo의 버킷에 일본어 pdf를 둡니다.
Discovery에서 해당 버킷에 액세스하려면 다음 두 가지 정의 정보가 필요합니다.
ICOS의 버킷에 있는 문서를 크롤링합니다. 만약을 위해(& 다른 데이터스토어에서도 마찬가지)입니다만, 크롤링한 결과의 콜렉션이나 인덱스는 Watson Discovery상에 만들어집니다. 왓슨 디스커버리 컬렉션/색인이 ICOS에 만들어지지는 않습니다.
ICOS 측에서 사전 준비
위와 같이 us-geo의 버킷에 일본어 pdf를 둡니다.
Discovery에서 해당 버킷에 액세스하려면 다음 두 가지 정의 정보가 필요합니다.
이 기사
버킷을 만들 때 '회복력'과 '위치'를 지정하면 엔드포인트 이름이 달라집니다. 사용 환경에 맞는 엔드포인트를 적절히 선택하십시오.
Discovery에서 ICOS 지정
Coonect to datasource - IBM Cloud Object Storage를 선택합니다.
전항에서 준비한 Endpoint/Access key ID/Secret Access Key를 입력하고 [Connect] 버튼
다음을 적절하게 선택하고 "Save & Sync Onjects"버튼
이제 크롤링이 시작되고 컬렉션이 만들어집니다. 콘텐츠의 양에 달려 있지만 인덱싱이 완료되면 조회할 수 있습니다.
2. 웹 크롤러
Discovery에서 설정
Coonect to datasource - Web Crawl 선택
다음을 적절하게 선택하고 "Save & Sync Onjects"버튼
Lite 플랜의 분은 홉수에 주의
저는 라이트 플랜에서 했는데 크롤러 홉 수의 기본값이 2이므로 링크를 따라 라이트 플랜의 상한인 1000을 초과했습니다. 테스트적으로 할 수 있다면 사이트에 따라 홉 수를 줄이는 것이 좋습니다. 또한 컬렉션을 삭제하면 상한이 재설정되었습니다. 당월은 더 이상 사용할 수 없다는 것은 아닐 것 같으므로 안심하십시오.
둘 다 매우 쉽게 크롤링 할 수있었습니다. 끝.
Reference
이 문제에 관하여(Watson Discovery의 커넥터를 사용해 보았습니다 (ICOS/웹 크롤링)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ishida330/items/a6bf1ff1a39ab0f15f7b텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)