python 3 scrapy 프레임 워 크 의 실행 절차

scrapy 프레임 워 크 개요:Scrapy,Python 이 개발 한 빠 르 고 고 차원 적 인 화면 캡 처 와 웹 캡 처 프레임 워 크 는 웹 사이트 를 캡 처 하고 페이지 에서 구조 화 된 데 이 터 를 추출 하 는 데 사 용 됩 니 다.Scrapy 는 용도 가 광범 위 하여 데이터 발굴,모니터링 과 자동화 테스트 에 사용 할 수 있다.
프로젝트 생 성
pycharm 에서 scrapy 프로젝트 를 직접 만 들 수 없 기 때문에 명령 행 을 통 해 만들어 야 하기 때문에 관련 작업 은 pycharm 터미널 에서 진행 합 니 다.
1.scrapy 모듈 설치:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy2.scrapy 프로젝트 만 들 기:scrapy startprocject testscrapy
4,파충류 생 성:scrapy genspider itcast"itcast.cn"
5.추출 데이터:spider 보완,xpath 사용 등 방법
6.데이터 저장:pipeline 에 데이터 저장
상용 명령
프로젝트 생 성:scrapy startproject xxx
항목 들 어가 기:cd xxx\#폴 더 아래 들 어가 기
파충류 만 들 기:scrapy genspider xxx(파충류 이름)xxx.com(기어 오 르 기 영역)
파일 생 성:scrapy crawl xxx-o xxx.json(특정한 형식의 파일 생 성)
파충류 실행:scrapy crawl XXX
모든 파충류 목록:scrapy list
설정 정보 획득:scrapy settings[options]
Scrapy 프로젝트 아래 파일
프로젝트 프로필
test_scrapy/:이 항목 의 python 모듈 입 니 다.여기에 코드 넣 기(핵심)
test_scrapy/items.py:프로젝트 의 item 파일 입 니 다.(이것 은 용 기 를 만 드 는 곳 입 니 다.기어 오 르 는 정 보 는 각각 다른 용기 에 넣 습 니 다)
test_scrapy/pipeline.py:프로젝트 의 pipelines 파일 입 니 다.
test_scrapy/settings.py:프로젝트 의 설정 파일 입 니 다.
test_scrapy/spiders/:spider 코드 를 설치 한 디 렉 터 리 입 니 다.(파충류 가 있 는 곳)
scrapy
scrapy 프레임 워 크 의 전체 실행 절차
1.spider 의 yeild 는 request 를 engine 에 보 냅 니 다.
2.engine 는 request 에 대해 어떠한 처리 도 하지 않 고 scheduler 에 게 보 냅 니 다.
3.scheduler,생 성 request 는 engine 에 게 전달
4.engine 는 request 를 받 아 middleware 를 통 해 다운 로 더 에 게 보 냅 니 다.
5.downloader 는\\response 를 가 져 온 후 middleware 를 거 쳐 engine 에 보 냅 니 다.
6.engine 에서 response 를 가 져 온 후 spider,spider 의 parse()방법 으로 가 져 온 response 를 처리 하고 items 나 requests 를 분석 합 니 다.
7.해 석 된 아 이 템 이나 requests 를 engine 에 보 내기
8.engine 은 items 나 requests 를 가 져 와 items 를 item Pipeline 에 보 내 고 requests 를 scheduler 에 보 냅 니 다(ps.스케줄 러 에 request 가 존재 하지 않 을 때 만 프로그램 이 중단 되 며 요청 에 실패 하면 scrapy 도 다시 요청 합 니 다)
yeild 함수 소개
쉽게 말 하면 yield 의 역할 은 하나의 함 수 를 generator(생 성기)로 바 꾸 는 것 입 니 다.yield 를 가 진 함 수 는 더 이상 일반 함수 가 아 닙 니 다.Python 해석 기 는 이 를 generator 로 간주 하고 yeild 를 가 진 함수 가 yeild 를 만 났 을 때 교체 값 을 되 돌려 줍 니 다.다음 교체 시 코드 는 yield 의 다음 문장 에서 계속 실 행 됩 니 다.함수 의 로 컬 변 수 는 지난번 실행 중단 전과 똑 같 아서 함수 가 다시 yield 를 만 날 때 까지 계속 실 행 됩 니 다.
쉽게 말 하면 한 함수 에서 프로그램 이 yield 문 구 를 실행 할 때 프로그램 이 멈 추고 yield 뒤의 표현 식 값 을 되 돌려 줍 니 다.다음 호출 할 때 yield 문 구 를 멈 춘 곳 에서 계속 실행 합 니 다.함수 가 실 행 될 때 까지 순환 합 니 다.
python 3 scrapy 프레임 워 크 의 실행 절차 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 python 3 scrapy 프레임 워 크 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 도 많은 응원 부탁드립니다!

좋은 웹페이지 즐겨찾기