채집 튜 토리 얼 및 채집 페이지 설정 문제

사실 채집 은 이렇게 이해 할 수 있 습 니 다.정의 머리 와 꼬리 는 링크 를 캡 처 하 는 것 을 제외 하고 검 측 할 필요 가 없습니다.다른 곳 에서 당신 이 정의 하 는 머리 와 꼬리 는 같은 html 표 에 같은 것 이 있 을 수 없습니다.왜 같은 것 이 있 을 수 없 습 니까?채집 한 모든 단계(링크 를 캡 처 하 는 것 을 제외 하고)는 당신 이 정의 한 머리 와 꼬리 에 따라 페이지 내용 을 캡 처 하기 때 문 입 니 다.그래서 머리 와 끝 이 같 을 수 없 을 뿐만 아니 라 필요 하지 않 은 내용 도 최대한 배제 해 야 한다 고 정의 하고 있다.만약 당신 이 이 정의 의 머리 와 끝 을 이해한다 면,기본적으로 간단 한 페이지 에 대해 수집 할 수 있 습 니 다.다음은 제 가 실례 를 들 어 설명 하 겠 습 니 다.다음 내용 은 프로그램 코드 입 니 다.뉴스 목록 주소:http://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htmhttp://ent.qq.com/newxw/thd_sjym.htm 목록 시작 코드: 목록 끝 코드: 링크 시작 코드:..제목 시작 표시:제목 끝 표시:본문 시작 표시:본문 끝 표시:위 에서 채집 한 페이지 는 비교적 표준적 입 니 다.지금 분석 해 보 겠 습 니 다:목록 사이트:바로 당신 이 수집 하고 자 하 는 페이지 입 니 다.이 단 계 는 매우 중요 합 니 다.예전 에 이 단 계 는 제 가 마구 잡 이 로 했 습 니 다.지금 은 이 단계 가 당신 이 모든 내용 을 수집 할 수 있 는 지 에 관 한 것 을 알 게 되 었 습 니 다.보통 채집 페이지 에 들 어가 면 몇 페이지 인지 판단 해 보 세 요.여러 페이지 가 있 으 면 두 번 째 페이지 와 첫 번 째 페이지 에 들 어가 면 규칙 적 인 변화 가 있 는 지,예 를 들 어 xxxx1.htm,xxx_2.htm,숫자 에 특히 주의 하 세 요.첫 페이지 부터id 의 규칙 은 첫 페이지 를 목록 주소 로 합 니 다.만약 에 첫 페이지 가 두 번 째 페이지 와 관련 이 없고 두 번 째 페이지 부터 이런 규칙 이 있 을 수 있 습 니 다.그러면 두 번 째 페이지 를 목록 사이트 로 하고 첫 페이지 를 한쪽 에 두 고 모든 데 이 터 를 수집 한 다음 에 단독 페이지 를 수집 합 니 다.어차피 앞으로 도 첫 페이지 만 수집 합 니 다.왜 요?보통 첫 페이지 에 업데이트 되 기 때문이다.목록 시작 과 끝:여 기 는 채집 프로그램 에 당신 이 수집 하고 자 하 는 내용 의 대략적인 방향 을 설명 하 는 것 입 니 다.예 를 들 어 상례 의 목록 사이트,안에 많은 내용 이 있 습 니 다.저 는 오른쪽 뉴스 만 수집 합 니 다.이때 첫 번 째 뉴스 를 검색 하고 위 를 보 세 요.이 HTML 문서 에서 유일한 내용 을 찾 을 수 있 습 니 다.여기 서 정의 머리 와 끝 에 주의해 야 할 것 은 빈 칸 도 계산 합 니 다.예컨대 href 앞 에 네 개의 빈 칸 이 있 는데 이것 도 특징 이 라 고 할 수 있 습 니 다.어쨌든 전문 만 있 으 면 됩 니 다.같은 방법 입 니 다.다만 이번 검색 의 마지막 뉴스 입 니 다.포 지 셔 닝 을 해 보 세 요.전문 을 함부로 찾 거나 시간 을 낭비 하지 않도록 전문 에 만 있 는 코드 를 찾 아 보 세 요.링크 시작 과 끝 입 니 다.여기 서 채집 페이지 를 보고 HTML 파일 을 봐 야 합 니 다.보통끝.중간 에 있 는 내용 은 채집 프로그램 에 맡 기 는 것 이 성공 에 가 까 워 졌 습 니 다.이 때 는 안전 을 위해 무 작위 로 다섯 페이지 를 누 르 고 다섯 페이지 의 공통점 을 찾 아 제목 을 시작 과 끝,본문 시작 과 끝 을 작성 하고 마지막 으로 테스트 해 보 세 요.됐 겠 지.다음은 페이지 를 나 누 는 것 입 니 다.페이지 는 두 가지 가 있 습 니 다.하 나 는 채집 페이지 의 페이지 이 고 다른 하 나 는 글 내용 의 페이지 입 니 다.채집 페이지 의 페이지:예:다음 내용 은 프로그램 코드:뉴스 목록 주소:http://www.pconline.com.cn/mobile/news/hgxz/index_1.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_1.html 목록 시작 코드:1px solid; ">글 목록 목록 끝 코드: 목록 색인 페이지: 대량 생 성:http://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.htmlhttp://www.pconline.com.cn/mobile/news/hgxz/index_{$ID}.html 생 성 범위:4to 1 링크 시작 코드:제목 끝 표시:-태평양 컴퓨터 네트워크 Pconline-[핸드폰 신제품 속달]본문 시작 표시:광고:adtop본문 끝 표시:목록 주소 와 목록 색인 페이지 링크 의 차이 점 을 주의 하 십시오:index1.html 를 index {$로 변경ID}.html,생 성 범위:여기 몇 페이지 만 있 습 니까?to?,두 가지 선택 이 있 습 니 다.뒤에서 앞으로,앞에서 뒤로 마음대로 하 세 요.내용 페이지 의 페이지:예:다음 내용 은 프로그램 코드:뉴스 목록 주소:http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 목록 시작 코드:핸드폰 정보 목록 종료 코드: 대량 생 성: http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146http://www.enet.com.cn/emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 생 성 범위:10to 1(이러한 장점 은 최신 뉴스 가 앞 에 있 습 니 다.그렇지 않 으 면 채집 페이지 와 반대 되 고 마지막 페이지 는 최신 뉴스 입 니 다)링크 시작 코드:제목 끝 표시: 본문 표시:본문 끝 표시:

다음 페이지 에 표 시 를 시작 합 니 다: 다음 페이지는 다음 페이지 의 시작 과 끝 에 주의 하 십시오.페이지 코드 를 찾 아 다음 페이지 의 코드 를 찾 습 니 다.다음 페이지 의 시작 과 끝 을 정의 하면 됩 니 다.여기 코드 는 선택 범위 가 작 기 때문에 몇 번 더 시도 합 니 다.

채집 튜 토리 얼 및 채집 페이지 설정 문제

좋은 웹페이지 즐겨찾기