Nutch 1.1 설치 및 실행

1 Nutch 1.1 설치 및 설정:1.1 최신 버 전 Nutch 1.1 다운로드:http://www.apache.org/dyn/closer.cgi/lucene/nutch/1.2 최신 버 전의 Windows 에서 모 의 Linux 환경 도구 Cygwin 다운로드:http://www.cygwin.com/Cygwin 도 구 를 설치 합 니 다.상세 한 내용 은http://hpjianhua.iteye.com/blog/8700341.3.1.1 과 1.2 가 모두 완 료 된 상황 에서 1.1 다운로드 한 Nutch 1.1 을 D 디스크 루트 디 렉 터 리 에 압축 해제 합 니 다.예 를 들 어 D:utch-1.1 1.4 수정 D:utch-1.1\conf 디 렉 터 리 의 crawl-urfilter.txt 파일:다음 과 같이 수정 합 니 다.

  
# accept hosts in MY.DOMAIN.NAME 
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 
   
# accept hosts in MY.DOMAIN.NAME 
+^http://([a-z0-9]*\.)*163.com/

1.5 nutch/conf/nutch-site.xml 파일 을 열 고에 다음 내용 을 삽입 합 니 다.

<property> 
  <name>http.agent.name</name> 
  <value>nutch</value> 
  <description></description> 
</property> 

<property> 
  <name>http.agent.description</name> 
  <value>hpjianhua</value> 
<description></description> 
</property> 

<property> 
  <name>http.agent.url</name> 
  <value>http://www.163.com</value> 
  <description></description> 
</property> 

<property> 
  <name>http.agent.email</name> 
  <value>[email protected]</value> 
  <description></description> 
</property>

1.6 D:utch-1.1\\confutch-default.xml 파일 을 열 고 다음 과 같이 수정 합 니 다.

<property> 
  <name>http.agent.name</name> 
  <value>HD nutch agent</value> 
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization. 

  NOTE: You should also check other related properties: 

http.robots.agents 
http.agent.description 
http.agent.url 
http.agent.email 
http.agent.version 

  and set their values appropriately. 

  </description> 
</property>

이로써 Nutch 1.1 의 설치 가 완료 되 었 습 니 다!2 Nutch 1.1 실행 및 테스트 2.1 보충:Nutch 1.1 기어 다 니 는 모든 사 이 트 를 설정 합 니 다.nutch\conf\crawl-urfilter.txt 파일 은+^http://([a-z0-9]*\.)*이 몇 글자 만 저장 하면 됩 니 다.모든 http 사이트 가 기어 가 는 것 에 동의 한 다 는 뜻 입 니 다.2.2 D:utch-1.1 디 렉 터 리 의 nutch-1.1.war 를 D:\Program Files\\apache-tomcat-6.0.29\\webapps 디 렉 터 리 로 복사 합 니 다.2.3 D:\Program Files\apache-tomcat-6.0.29\webappsutch-1.1\\WEB-INF\classes 디 렉 터 리 의 nutch-site.xml 문 서 를 수정 합 니 다.수정 은 다음 과 같 습 니 다.

<configuration> 
<property> 
<name>searcher.dir</name> 
<value>D:
utch-1.1\crawdata</value> 
</property> 
</configuration>

메모:D:utch-1.1\crawdata 는 파행 데이터 의 저장 디 렉 터 리 입 니 다.2.4 D:utch-1.1 디 렉 터 리 에 폴 더 url 을 새로 만 들 고 url 폴 더 에 url.txt 파일 을 새로 만 듭 니 다.파일 에 입력:http://www.163.com/ "있 으 면 주의 하 세 요"/".데스크 톱 에 설 치 된 Cygwin 아이콘 을 2.5 번 누 르 십시오:입력 창 에 cd/cygdrive/d/nutch-1.1 을 입력 한 다음 입력 하 십시오:bin/nutch crawl urls-dir crawdata-depth 3-threads 4>&crawl.log 상세 설명:crawl:nutch.jar 에 게 crawl 을 실행 하 는 main 방법 을 알려 줍 니 다.urls:기어 가 야 할 url.txt 파일 을 저장 하 는 디 렉 터 리-dir crawldata 기어 간 후 파일 이 저장 하 는 위치-depth 1:기어 가 는 횟수 나 깊이 가 되 지만 횟수 가 더 적절 하 다 고 생각 합 니 다.테스트 시 1 로 바 꾸 는 것 을 권장 합 니 다.-threads 는 동시 다발 프로 세 스 를 지정 합 니 다.이것 은 5-topN 50:한 사이트 에 저 장 된 최대 페이지 수 입 니 다.>&crawl.log 출력 로 그 는 인내심 을 가지 고 기어 다 니 기 를 기다 리 면 완 료 됩 니 다.2.6 오류 문 제 를 수정 합 니 다.Tomcat\conf\server.xml 에서 다음 단 계 를 찾 아 수정 합 니 다.

<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

자바 파일 압축 및 압축 풀기

파일 의 간단 한 압축 과 압축 해 제 를 실현 하 였 다.주요 테스트 용 에는 급 하 게 쓸 수 있 는 부분 이 있 으 니 불편 한 점 이 있 으 면 아낌없이 가르쳐 주 십시오. 1. 중국어 문 제 를 해 결 했 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

Nutch 1.1 설치 및 실행

좋은 웹페이지 즐겨찾기