Nutch 1.1 설치 및 실행
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
1.5 nutch/conf/nutch-site.xml 파일 을 열 고
<property>
<name>http.agent.name</name>
<value>nutch</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>hpjianhua</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.163.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>[email protected]</value>
<description></description>
</property>
1.6 D:utch-1.1\\confutch-default.xml 파일 을 열 고 다음 과 같이 수정 합 니 다.
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
이로써 Nutch 1.1 의 설치 가 완료 되 었 습 니 다!2 Nutch 1.1 실행 및 테스트 2.1 보충:Nutch 1.1 기어 다 니 는 모든 사 이 트 를 설정 합 니 다.nutch\conf\crawl-urfilter.txt 파일 은+^http://([a-z0-9]*\.)*이 몇 글자 만 저장 하면 됩 니 다.모든 http 사이트 가 기어 가 는 것 에 동의 한 다 는 뜻 입 니 다.2.2 D:utch-1.1 디 렉 터 리 의 nutch-1.1.war 를 D:\Program Files\\apache-tomcat-6.0.29\\webapps 디 렉 터 리 로 복사 합 니 다.2.3 D:\Program Files\apache-tomcat-6.0.29\webappsutch-1.1\\WEB-INF\classes 디 렉 터 리 의 nutch-site.xml 문 서 를 수정 합 니 다.수정 은 다음 과 같 습 니 다.
<configuration>
<property>
<name>searcher.dir</name>
<value>D:
utch-1.1\crawdata</value>
</property>
</configuration>
메모:D:utch-1.1\crawdata 는 파행 데이터 의 저장 디 렉 터 리 입 니 다.2.4 D:utch-1.1 디 렉 터 리 에 폴 더 url 을 새로 만 들 고 url 폴 더 에 url.txt 파일 을 새로 만 듭 니 다.파일 에 입력:http://www.163.com/ "있 으 면 주의 하 세 요"/".데스크 톱 에 설 치 된 Cygwin 아이콘 을 2.5 번 누 르 십시오:입력 창 에 cd/cygdrive/d/nutch-1.1 을 입력 한 다음 입력 하 십시오:bin/nutch crawl urls-dir crawdata-depth 3-threads 4>&crawl.log 상세 설명:crawl:nutch.jar 에 게 crawl 을 실행 하 는 main 방법 을 알려 줍 니 다.urls:기어 가 야 할 url.txt 파일 을 저장 하 는 디 렉 터 리-dir crawldata 기어 간 후 파일 이 저장 하 는 위치-depth 1:기어 가 는 횟수 나 깊이 가 되 지만 횟수 가 더 적절 하 다 고 생각 합 니 다.테스트 시 1 로 바 꾸 는 것 을 권장 합 니 다.-threads 는 동시 다발 프로 세 스 를 지정 합 니 다.이것 은 5-topN 50:한 사이트 에 저 장 된 최대 페이지 수 입 니 다.>&crawl.log 출력 로 그 는 인내심 을 가지 고 기어 다 니 기 를 기다 리 면 완 료 됩 니 다.2.6 오류 문 제 를 수정 합 니 다.Tomcat\conf\server.xml 에서 다음 단 계 를 찾 아 수정 합 니 다.
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
자바 파일 압축 및 압축 풀기파일 의 간단 한 압축 과 압축 해 제 를 실현 하 였 다.주요 테스트 용 에는 급 하 게 쓸 수 있 는 부분 이 있 으 니 불편 한 점 이 있 으 면 아낌없이 가르쳐 주 십시오. 1. 중국어 문 제 를 해 결 했 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.