Python 파충류 의 기본 은 간단하게 scrapy 의 프레임 구 조 를 말씀 드 리 겠 습 니 다.

2641 단어 Pythonscrapy프레임
scrapy 프레임 구조
사고 하 다.
  • scrapy 는 왜 라 이브 러 리 가 아 닌 프레임 워 크 입 니까?
  • scrapy 는 어떻게 일 합 니까?
  • 프로젝트 구조
    기어 오 르 기 전에 새 Scrapy 프로젝트 를 만들어 야 합 니 다.코드 를 저장 하려 는 디 렉 터 리 에 들 어가 다음 명령 을 실행 하 십시오.
    메모:항목 을 만 들 때 현재 디 렉 터 리 에 파충류 항목 의 디 렉 터 리 를 새로 만 듭 니 다.
    이 파일 들 은 각각:
  • scrapy.cfg:프로젝트 프로필
  • quotes/:이 프로젝트 의 python 모듈 입 니 다.이후 에 당신 은 여기에 코드 를 추가 할 것 입 니 다
  • quotes/items.py:프로젝트 의 item 파일
  • quotes/middlewares.py:파충류 미들웨어,미들웨어 다운로드(처리 요청 체 와 응답 체)
  • quotes/ipelines.py:프로젝트 의 pipelines 파일
  • quotes/settings.py:프로젝트 의 설정 파일
  • quotes/spiders/:spider 코드 를 설치 한 디 렉 터 리
  • Scrapy 원리 도

    각 구성 요소 의 소개
    1.Engine。엔진,전체 시스템 의 데이터 흐름 처리,트리거 사 무 를 처리 하 는 것 이 전체 프레임 워 크 의 핵심 입 니 다.
    2.ltem。프로젝트 는 결과 에 오 르 는 데이터 구 조 를 정의 하고 오 르 는 데 이 터 는 이 ltem 대상 으로 부 여 됩 니 다.
    3.Scheduler。스케줄 러 는 엔진 이 보 낸 요청 을 받 아들 여 대기 열 에 넣 고 엔진 이 다시 요청 할 때 엔진 에 요청 합 니 다.
    4.Downloader。다운로드 기,홈 페이지 내용 을 다운로드 하고 홈 페이지 내용 을 거미 에 게 되 돌려 줍 니 다.
    5.Spiders。거 미 는 기어 오 르 는 논리 와 웹 페이지 의 해석 규칙 을 정 의 했 습 니 다.주로 응답 을 분석 하고 결과 와 새로운 요 구 를 생 성 합 니 다.
    6.Item Pipeline。프로젝트 파 이 프 는 거미 가 웹 페이지 에서 추출 한 프로젝트 를 처리 하 는데 그 주요 임 무 는 데 이 터 를 세척 하고 검증 하 며 저장 하 는 것 이다.
    7.Downloader Middlewares。다운로드 기 미들웨어,엔진 과 다운로드 기 사이 에 있 는 갈고리 프레임 워 크,주로 엔진 과 다운로드 기 간 의 요청 및 응답 을 처리 합 니 다.
    8.Spider Middlewares。거미 중간 부품 은 엔진 과 거미 사이 에 있 는 갈고리 프레임 으로 거미 가 입력 한 응답 과 출력 결과 및 새로운 요청 을 처리 합 니 다.

    데이터 흐름
  • Scrapy Engine(엔진):Spider,ltemPipeline,Downloader,Scheduler 중간의 통신,신호,데이터 전달 등 을 책임 집 니 다.
  • Scheduler(스케줄 러):엔진 에서 보 내 온 Request 요청 을 받 아들 이 고 일정한 방식 으로 정리 하고 배열 하 며 입대 하여 엔진 이 필요 할 때 엔진 에 반납 합 니 다.
  • Downloader(다운로드 기):Scrapy Engine(엔진)이 보 낸 모든 Requests 요청 을 다운로드 하고 받 은 Responses 를 Scrapy Engine(엔진)에 돌려 주 며 엔진 을 Spider 에 맡 깁 니 다.
  • Spider(파충류)U 는 모든 응답 을 처리 하고 그 중에서 추출 데 이 터 를 분석 하여 ltem 필드 에 필요 한 데 이 터 를 가 져 오 며 따라 가 야 할 URL 을 엔진 에 제출 하고 Scheduler(스케줄 러)에 다시 들 어 갑 니 다.
  • ltem Pipeline(파이프):Spider 에서 얻 은 ltem 을 처리 하고 후기 처리(상세 분석,여과,저장 등)를 하 는 곳 입 니 다.
  • Downloader Middlewares(미들웨어 다운로드):다운로드 기능 을 확장 할 수 있 는 구성 요소 로 사용 할 수 있 습 니 다.
  • Spider Middlewares(Spider 미들웨어):엔진 과 Spider 중간 통신 을 자체 적 으로 확장 하고 조작 할 수 있 는 기능 구성 요소(예 를 들 어 Spider 에 들 어 가 는 Responses)로 이해 할 수 있 습 니 다.Spider 에서 나 간 Requests 와
  • 파 이 썬 파충류 의 기초 에 관 한 간단 한 스 크 래 피의 구조 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.스 크 래 피의 구조 에 관 한 더 많은 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

    좋은 웹페이지 즐겨찾기