WebCollector 2.72 처리 301/302 리 셋,404 Not Found 등 Http 상태
WebCollector 의 Http 요청 결 과 는 두 가지 상태 입 니 다.요청 성공 과 요청 실패 입 니 다.이 두 가지 상태의 정 의 는 다음 과 같다.
WebCollector 는 기본적으로 OkHttpRequester 를 Http 요청 플러그 인(Requester 플러그 인)으로 사용 합 니 다.아래 코드 를 통 해 OkHttpRequester 가 요청 한 상태 코드 집합 을 볼 수 있 습 니 다.
public static void main(String[] args) {
OkHttpRequester requester = new OkHttpRequester();
System.out.println(requester.getSuccessCodeSet());
}
, ,OkHttpRequester 404、200、301、302 :
[404, 200, 301, 302]
,OkHttpRequester 301 302 , Http 。 visit , :
@Override
public void visit(Page page, CrawlDatums next) {
// 301 302, ( next )
// meta
if(page.code() == 301 || page.code() == 302){
next.addAndReturn(page.location()).meta(page.meta());
return;
}
}
page.location() Http Location ( URL), next 。 meta( ) 。 , , http://a.com http://b.com http://c.com, , 。 ,http://c.com 。
:
1. http://a.com ,
2. http://a.com, http://c.com, , http://a.com ( http://c.com )
3. http://b.com ,
4. http://b.com, http://c.com, , http://b.com ( http://c.com )
, Requester , visit , 。 next( ) http://c.com, , 。 , Requester , URL , , URL ( , http://c.com)。
, 301 302 , ,301 302 , , , ( ) , 301 302 :
public static void main(String[] args) {
OkHttpRequester requester = new OkHttpRequester();
requester.removeSuccessCode(301);
requester.removeSuccessCode(302);
System.out.println(requester.getSuccessCodeSet());
}
, 301 302:
[404, 200]
Http ( 304), :
public static void main(String[] args) {
OkHttpRequester requester = new OkHttpRequester();
requester.addSuccessCode(304);
System.out.println(requester.getSuccessCodeSet());
}
:
[304, 404, 200, 301, 302]
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Scrapy 에서 인터넷 파충류한 프로젝트 에 거미 (spider) 를 여러 개 캡 처 하고 캡 처 한 데이터 구조 정의 Items 와 일부 설정 을 포함 할 수 있 습 니 다.Scrapy 캡 처 프로 세 스: spider 에서 캡 처 할 사 이...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.