사실 채집 은 이렇게 이해 할 수 있 습 니 다.정의 머리 와 꼬리 는 링크 를 캡 처 하 는 것 을 제외 하고 검 측 할 필요 가 없습니다.다른 곳 에서 당신 이 정의 하 는 머리 와 꼬리 는 같은 html 표 에 같은 것 이 있 을 수 없습니다.왜 같은 것 이 있 을 수 없 습 니까?채집 한 모든 단계(링크 를 캡 처 하 는 것 을 제외 하고)는 당신 이 정의 한 머리 와 꼬리 에 따라 페이지 내용 을 캡 처 하기 때 문 입 니 다.그래서 머리 와 끝 이 같 을 수 없 을 뿐만 아니 라 필요 하지 않 은 내용 도 최대한 배제 해 야 한다 고 정의 하고 있다.만약 당신 이 이 정의 의 머리 와 끝 을 이해한다 면,기본적으로 간단 한 페이지 에 대해 수집 할 수 있 습 니 다.다음은 제 가 실례 를 들 어 설명 하 겠 습 니 다.다음 내용 은 프로그램 코드 입 니 다.뉴스 목록 주소:http://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htm 목록 시작 코드:
대량 생 성: http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 생 성 범위:10to 1(이러한 장점 은 최신 뉴스 가 앞 에 있 습 니 다.그렇지 않 으 면 채집 페이지 와 반대 되 고 마지막 페이지 는 최신 뉴스 입 니 다)링크 시작 코드:제목 끝 표시: