Python 파충류 의 기본 은 간단하게 scrapy 의 프레임 구 조 를 말씀 드 리 겠 습 니 다.

scrapy 프레임 구조
사고 하 다.

scrapy 는 왜 라 이브 러 리 가 아 닌 프레임 워 크 입 니까?

scrapy 는 어떻게 일 합 니까?

프로젝트 구조
기어 오 르 기 전에 새 Scrapy 프로젝트 를 만들어 야 합 니 다.코드 를 저장 하려 는 디 렉 터 리 에 들 어가 다음 명령 을 실행 하 십시오.
메모:항목 을 만 들 때 현재 디 렉 터 리 에 파충류 항목 의 디 렉 터 리 를 새로 만 듭 니 다.
이 파일 들 은 각각:

scrapy.cfg:프로젝트 프로필

quotes/:이 프로젝트 의 python 모듈 입 니 다.이후 에 당신 은 여기에 코드 를 추가 할 것 입 니 다

quotes/items.py:프로젝트 의 item 파일

quotes/middlewares.py:파충류 미들웨어,미들웨어 다운로드(처리 요청 체 와 응답 체)

quotes/ipelines.py:프로젝트 의 pipelines 파일

quotes/settings.py:프로젝트 의 설정 파일

quotes/spiders/:spider 코드 를 설치 한 디 렉 터 리

Scrapy 원리 도

각 구성 요소 의 소개
1.Engine。엔진,전체 시스템 의 데이터 흐름 처리,트리거 사 무 를 처리 하 는 것 이 전체 프레임 워 크 의 핵심 입 니 다.
2.ltem。프로젝트 는 결과 에 오 르 는 데이터 구 조 를 정의 하고 오 르 는 데 이 터 는 이 ltem 대상 으로 부 여 됩 니 다.
3.Scheduler。스케줄 러 는 엔진 이 보 낸 요청 을 받 아들 여 대기 열 에 넣 고 엔진 이 다시 요청 할 때 엔진 에 요청 합 니 다.
4.Downloader。다운로드 기,홈 페이지 내용 을 다운로드 하고 홈 페이지 내용 을 거미 에 게 되 돌려 줍 니 다.
5.Spiders。거 미 는 기어 오 르 는 논리 와 웹 페이지 의 해석 규칙 을 정 의 했 습 니 다.주로 응답 을 분석 하고 결과 와 새로운 요 구 를 생 성 합 니 다.
6.Item Pipeline。프로젝트 파 이 프 는 거미 가 웹 페이지 에서 추출 한 프로젝트 를 처리 하 는데 그 주요 임 무 는 데 이 터 를 세척 하고 검증 하 며 저장 하 는 것 이다.
7.Downloader Middlewares。다운로드 기 미들웨어,엔진 과 다운로드 기 사이 에 있 는 갈고리 프레임 워 크,주로 엔진 과 다운로드 기 간 의 요청 및 응답 을 처리 합 니 다.
8.Spider Middlewares。거미 중간 부품 은 엔진 과 거미 사이 에 있 는 갈고리 프레임 으로 거미 가 입력 한 응답 과 출력 결과 및 새로운 요청 을 처리 합 니 다.

데이터 흐름

Scrapy Engine(엔진):Spider,ltemPipeline,Downloader,Scheduler 중간의 통신,신호,데이터 전달 등 을 책임 집 니 다.

Scheduler(스케줄 러):엔진 에서 보 내 온 Request 요청 을 받 아들 이 고 일정한 방식 으로 정리 하고 배열 하 며 입대 하여 엔진 이 필요 할 때 엔진 에 반납 합 니 다.

Downloader(다운로드 기):Scrapy Engine(엔진)이 보 낸 모든 Requests 요청 을 다운로드 하고 받 은 Responses 를 Scrapy Engine(엔진)에 돌려 주 며 엔진 을 Spider 에 맡 깁 니 다.

Spider(파충류)U 는 모든 응답 을 처리 하고 그 중에서 추출 데 이 터 를 분석 하여 ltem 필드 에 필요 한 데 이 터 를 가 져 오 며 따라 가 야 할 URL 을 엔진 에 제출 하고 Scheduler(스케줄 러)에 다시 들 어 갑 니 다.

ltem Pipeline(파이프):Spider 에서 얻 은 ltem 을 처리 하고 후기 처리(상세 분석,여과,저장 등)를 하 는 곳 입 니 다.

Downloader Middlewares(미들웨어 다운로드):다운로드 기능 을 확장 할 수 있 는 구성 요소 로 사용 할 수 있 습 니 다.

Spider Middlewares(Spider 미들웨어):엔진 과 Spider 중간 통신 을 자체 적 으로 확장 하고 조작 할 수 있 는 기능 구성 요소(예 를 들 어 Spider 에 들 어 가 는 Responses)로 이해 할 수 있 습 니 다.Spider 에서 나 간 Requests 와

파 이 썬 파충류 의 기초 에 관 한 간단 한 스 크 래 피의 구조 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.스 크 래 피의 구조 에 관 한 더 많은 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

Python의 None과 NULL의 차이점 상세 정보

그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

python 이상 처리,모듈 및 패키지

Python 파충류 기초 의 첫 번 째 사용 scrapy 파충류 실례

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다