Discovery - 훌륭한 개발자 블로그

SDU table 라벨 지정(beta)

오른쪽 화살표로 표시된 테이블을 선택한 후 왼쪽 화살표로 표시된 목록을 범위 지정합니다. 이대로 보기 힘들기 때문에 위쪽 화살표(원1)로 나타낸 줌인 기호를 선택하고 확대 표시하고 싶은 범위(원2)를 지정합니다. 왼쪽 절반의 원본 문서 이미지와 오른쪽 절반의 인식 상태 표시가 각각 확대되는 타이밍은 다소 어긋날 수 있습니다. table 로 라벨을 붙인 부분에 커서를 가져가면, 위쪽 화살표(원...

WatsonDiscoverySDU

Watson Discovery의 커넥터를 사용해 보았습니다 (ICOS/웹 크롤링)

Watson Disocovery는 기존 Java 기반 크롤러 대신 커넥터를 제공합니다. Connector를 사용하면 UI를 사용하여 다양한 데이터 스토어에 대한 연결이 매우 간단합니다. 문서 SalesForce나 Box는 엔터프라이즈 환경이 필요하므로 할애. 이번에는 수중에 간편한 환경이 있다 ①IBM Cloud Object Storage ②WebCrawl을 바꾸어 접속해 보았습니다. ICO...

BluemixibmcloudDiscoveryWatson

Watson Discovery 조작 기본편 -API에 의한 관련도 학습

IBM Watson™ Discovery 서비스는 연관성 학습 기능을 사용하여 자연어 조회의 관련성을 향상시킬 수 있습니다. Discovery 도구 또는 Discovery API를 사용하여 학습할 수 있습니다. 먼저 다음 정보를 준비합니다. environment_id/collection_id : Discovery의 collection 화면으로부터 취득 document_id: 평가할 문서의 ID...

WatsonibmcloudDiscovery

Watson Discovery에서 PowerPoint와 Excel을 크롤링하고 캡처

Watson Discovery에서 캡처할 수 있는 파일 형식은 Word, PDF, HTML, Json입니다. Nutch에서는 웹 크롤링 대신 파일 시스템을 크롤링하도록 설정할 수 있습니다. 또한 Nutch는 내부적으로 오픈 소스 파서 인 Apache Tika를 사용합니다.이 Apache Tika는 PowerPoint 및 Excel을 포함한 다양한 형식의 파일에서 텍스트 및 메타 데이터를 추출...

WatsonDiscovery

Watson Discovery에서 웹 크롤링 (2)

은 Watson Discovery에서 웹 크롤링을 시도하고 뉴스 기사를 Discovery에 넣어 보았습니다. 다만, 뉴스 기사 뿐만이 아니라, 주위의 메뉴등의 텍스트도 들어 버리고 있으므로, 이번은 Web 페이지의 필요한 개소만 잘라내는 방법에 대해서는 생각해 보고 싶습니다. Apatch Nutch는 플러그인에서 필요한 기능을 확장할 수 있는 메커니즘을 제공합니다. 이번에는 "웹 페이지의 필...

WatsonDiscoverywebcrawler