Nutch 1.1 설치 및 실행

1 Nutch 1.1 설치 및 설정:1.1 최신 버 전 Nutch 1.1 다운로드:http://www.apache.org/dyn/closer.cgi/lucene/nutch/1.2 최신 버 전의 Windows 에서 모 의 Linux 환경 도구 Cygwin 다운로드:http://www.cygwin.com/Cygwin 도 구 를 설치 합 니 다.상세 한 내용 은http://hpjianhua.iteye.com/blog/8700341.3.1.1 과 1.2 가 모두 완 료 된 상황 에서 1.1 다운로드 한 Nutch 1.1 을 D 디스크 루트 디 렉 터 리 에 압축 해제 합 니 다.예 를 들 어 D:utch-1.1 1.4 수정 D:utch-1.1\conf 디 렉 터 리 의 crawl-urfilter.txt 파일:다음 과 같이 수정 합 니 다.
  
# accept hosts in MY.DOMAIN.NAME 
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 
   
# accept hosts in MY.DOMAIN.NAME 
+^http://([a-z0-9]*\.)*163.com/ 

 1.5 nutch/conf/nutch-site.xml 파일 을 열 고에 다음 내용 을 삽입 합 니 다. 
<property> 
  <name>http.agent.name</name> 
  <value>nutch</value> 
  <description></description> 
</property> 

<property> 
  <name>http.agent.description</name> 
  <value>hpjianhua</value> 
<description></description> 
</property> 

<property> 
  <name>http.agent.url</name> 
  <value>http://www.163.com</value> 
  <description></description> 
</property> 

<property> 
  <name>http.agent.email</name> 
  <value>[email protected]</value> 
  <description></description> 
</property>

  1.6 D:utch-1.1\\confutch-default.xml 파일 을 열 고 다음 과 같이 수정 합 니 다.
<property> 
  <name>http.agent.name</name> 
  <value>HD nutch agent</value> 
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization. 

  NOTE: You should also check other related properties: 

http.robots.agents 
http.agent.description 
http.agent.url 
http.agent.email 
http.agent.version 

  and set their values appropriately. 

  </description> 
</property> 

 이로써 Nutch 1.1 의 설치 가 완료 되 었 습 니 다!2 Nutch 1.1 실행 및 테스트 2.1 보충:Nutch 1.1 기어 다 니 는 모든 사 이 트 를 설정 합 니 다.nutch\conf\crawl-urfilter.txt 파일 은+^http://([a-z0-9]*\.)*이 몇 글자 만 저장 하면 됩 니 다.모든 http 사이트 가 기어 가 는 것 에 동의 한 다 는 뜻 입 니 다.2.2 D:utch-1.1 디 렉 터 리 의 nutch-1.1.war 를 D:\Program Files\\apache-tomcat-6.0.29\\webapps 디 렉 터 리 로 복사 합 니 다.2.3 D:\Program Files\apache-tomcat-6.0.29\webappsutch-1.1\\WEB-INF\classes 디 렉 터 리 의 nutch-site.xml 문 서 를 수정 합 니 다.수정 은 다음 과 같 습 니 다.
<configuration> 
<property> 
<name>searcher.dir</name> 
<value>D:
utch-1.1\crawdata</value> </property> </configuration>

 메모:D:utch-1.1\crawdata 는 파행 데이터 의 저장 디 렉 터 리 입 니 다.2.4 D:utch-1.1 디 렉 터 리 에 폴 더 url 을 새로 만 들 고 url 폴 더 에 url.txt 파일 을 새로 만 듭 니 다.파일 에 입력:http://www.163.com/ "있 으 면 주의 하 세 요"/".데스크 톱 에 설 치 된 Cygwin 아이콘 을 2.5 번 누 르 십시오:입력 창 에 cd/cygdrive/d/nutch-1.1 을 입력 한 다음 입력 하 십시오:bin/nutch crawl urls-dir crawdata-depth 3-threads 4>&crawl.log 상세 설명:crawl:nutch.jar 에 게 crawl 을 실행 하 는 main 방법 을 알려 줍 니 다.urls:기어 가 야 할 url.txt 파일 을 저장 하 는 디 렉 터 리-dir crawldata 기어 간 후 파일 이 저장 하 는 위치-depth 1:기어 가 는 횟수 나 깊이 가 되 지만 횟수 가 더 적절 하 다 고 생각 합 니 다.테스트 시 1 로 바 꾸 는 것 을 권장 합 니 다.-threads 는 동시 다발 프로 세 스 를 지정 합 니 다.이것 은 5-topN 50:한 사이트 에 저 장 된 최대 페이지 수 입 니 다.>&crawl.log 출력 로 그 는 인내심 을 가지 고 기어 다 니 기 를 기다 리 면 완 료 됩 니 다.2.6 오류 문 제 를 수정 합 니 다.Tomcat\conf\server.xml 에서 다음 단 계 를 찾 아 수정 합 니 다.
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" /> 

 
 

좋은 웹페이지 즐겨찾기