자바 파충류 기술 프레임 워 크 의 Heritrix 프레임 워 크 상세 설명
강력 한 확장 성 을 가지 고 개발 자 들 이 각 구성 요 소 를 임의로 선택 하거나 확장 하여 특정한 캡 처 논 리 를 실현 합 니 다.
Heritrix 소개
Heritrix 는 모듈 화 된 디자인 을 사용 하여 사용자 가 실행 할 때 사용 할 모듈 을 선택 할 수 있 습 니 다.핵심 클래스(core classes)와 플러그 인 모듈(pluggable modules)로 구성 되 어 있 습 니 다.
핵심 클래스 는 설정 할 수 있 지만 덮어 쓸 수 없습니다.플러그 인 모듈 은 제3자 모듈 로 대체 할 수 있 습 니 다.그래서 우 리 는 특정한 캡 처 논 리 를 실현 한 제3자 모듈 로 기본 플러그 인 모듈 을 대체 하여 자신의 캡 처 수 요 를 만족 시 킬 수 있 습 니 다.
CrawlController(다운로드 컨트롤 러)전체 다운로드 과정의 총 컨트롤 러,전체 캡 처 작업 의 시작 점 은 전체 캡 처 작업 의 시작 과 끝 을 결정 합 니 다.모든 URI 는 경계 컨트롤 러(Frontier)에서 새로운 URI 를 가 져 온 다음 Processor chains(처리 체인)에 일련의 Processor(프로세서)처 리 를 거 쳐 독립 된 스 레 드 를 가지 고 있 습 니 다.
2.Heritrix 구조
중앙 컨트롤 러 CrawlController 는 핵심 구성 요소 로 전체 캡 처 작업 의 시작 과 끝 을 결정 합 니 다.
사용자 가 Heritrix 웹 UI 콘 솔 에 캡 처 작업 을 설정 한 후에 heritrix 는 먼저 XMLsettingsHandler 대상 을 구성 한 다음 에 CrawlController 의 구조 함 수 를 호출 하여 CrawlController 인 스 턴 스 를 구성 하고 초기 화 하면 CrawlController 는 운행 조건 을 갖 추 게 된다.
이 때 requestCrawlStart()방법 만 호출 하면 스 레 드 탱크 와 Frontier 를 시작 하여 스 레 드 탱크 의 작업 스 레 드 에 캡 처 할 URL 링크 를 제공 할 수 있 습 니 다.
Heritrix 3.x 의 프레임 워 크 는 주로 Engine 과 Component 로 나 뉜 다.
3.일부 API
org.archive.crawler.framework.CrawlJob;
org.archive.crawler.postprocessor.CandidatesProcessor;
org.archive.modules.CrawlURI;
등등
캡 처 작업 CrawlOrder 클래스:전체 캡 처 작업 의 출발점 입 니 다.한 번 의 캡 처 작업 은 많은 속성 을 포함 하고 하나의 작업 을 만 드 는 방식 은 여러 가지 가 있 습 니 다.가장 간단 한 것 은 기본 order.xml 에 따라 설정 하 는 것 입 니 다.
중앙 컨트롤 러 CrawlController:이 종 류 는 캡 처 작업 의 시작 과 끝 을 결정 합 니 다.다음 구성 요 소 를 포함 합 니 다:
CrawlOrder:이 종 류 는 order.xml 의 속성 설정 을 저장 합 니 다.
CrawlScope:현재 캡 처 범 위 를 결정 합 니 다.
프로세서 체인 목록:프로세서 체인;
Frontier:한 번 의 캡 처 작업 은 Frontier 를 설정 하여 모든 스 레 드 에 URI 를 계속 제공 해 야 합 니 다.
ToePool:현재 작업 에서 캡 처 한 Host 이름과 Server 이름 을 관리 하 는 스 레 드 풀 입 니 다.
중앙 컨트롤 러 CrawlController 의 클래스 구 조 는 그림 과 같다.
Frontier 링크 제조 공장:스 레 드 에 링크 를 제공 하 는 도 구 를 표시 합 니 다.특정한 알고리즘 을 통 해 다음 링크 를 프로세서 체인 에 보 낼 지 결정 하 는 동시에 그 자체 도 일정한 로그 와 상태 보고 기능 을 책임 집 니 다.
BdbFrontier 클래스:Berkeley DB 로 이 루어 집 니 다.Berkeley DB 는 HashTable 입 니 다."key/value"방식 으로 데 이 터 를 저장 할 수 있 고 응용 프로그램 에 신축 가능 하고 고성능 이 며 사무 보호 기능 이 있 는 내장 형 데이터 베 이 스 를 제공 할 수 있 습 니 다.
Heritrix 의 다 중 스 레 드 ToeThread 와 ToePool:웹 페이지 를 더욱 빠 르 고 효과적으로 캡 처 하려 면 다 중 스 레 드 를 사용 해 야 합 니 다.Heritrix 는 다 중 스 레 드 체 제 를 사용 하여 표준 스 레 드 탱크 ToePool 을 제공 하여 모든 캡 처 스 레 드 를 관리 해 야 합 니 다.
프로세서 체인 프로세서:PreProcessor,Fetcher,Extractor,Writer,PostProcessor 다섯 가 지 를 포함 합 니 다.
응용
파충류 모듈 로 데 이 터 를 추출 하 다.
파충류 기술 프레임 워 크 의 Heritrix 프레임 워 크 에 대한 상세 한 설명 은 여기까지 입 니 다.더 많은 파충류 기술 프레임 워 크 Heritrix 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Is Eclipse IDE dying?In 2014 the Eclipse IDE is the leading development environment for Java with a market share of approximately 65%. but ac...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.