Python 파충류 의 기본 은 간단하게 scrapy 의 프레임 구 조 를 말씀 드 리 겠 습 니 다.
사고 하 다.
기어 오 르 기 전에 새 Scrapy 프로젝트 를 만들어 야 합 니 다.코드 를 저장 하려 는 디 렉 터 리 에 들 어가 다음 명령 을 실행 하 십시오.
메모:항목 을 만 들 때 현재 디 렉 터 리 에 파충류 항목 의 디 렉 터 리 를 새로 만 듭 니 다.
이 파일 들 은 각각:
각 구성 요소 의 소개
1.Engine。엔진,전체 시스템 의 데이터 흐름 처리,트리거 사 무 를 처리 하 는 것 이 전체 프레임 워 크 의 핵심 입 니 다.
2.ltem。프로젝트 는 결과 에 오 르 는 데이터 구 조 를 정의 하고 오 르 는 데 이 터 는 이 ltem 대상 으로 부 여 됩 니 다.
3.Scheduler。스케줄 러 는 엔진 이 보 낸 요청 을 받 아들 여 대기 열 에 넣 고 엔진 이 다시 요청 할 때 엔진 에 요청 합 니 다.
4.Downloader。다운로드 기,홈 페이지 내용 을 다운로드 하고 홈 페이지 내용 을 거미 에 게 되 돌려 줍 니 다.
5.Spiders。거 미 는 기어 오 르 는 논리 와 웹 페이지 의 해석 규칙 을 정 의 했 습 니 다.주로 응답 을 분석 하고 결과 와 새로운 요 구 를 생 성 합 니 다.
6.Item Pipeline。프로젝트 파 이 프 는 거미 가 웹 페이지 에서 추출 한 프로젝트 를 처리 하 는데 그 주요 임 무 는 데 이 터 를 세척 하고 검증 하 며 저장 하 는 것 이다.
7.Downloader Middlewares。다운로드 기 미들웨어,엔진 과 다운로드 기 사이 에 있 는 갈고리 프레임 워 크,주로 엔진 과 다운로드 기 간 의 요청 및 응답 을 처리 합 니 다.
8.Spider Middlewares。거미 중간 부품 은 엔진 과 거미 사이 에 있 는 갈고리 프레임 으로 거미 가 입력 한 응답 과 출력 결과 및 새로운 요청 을 처리 합 니 다.
데이터 흐름
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.