파 이 썬 파충류 기초 설명 scrapy 프레임 워 크
인터넷 파충 류 는 인터넷 에서 사이트 콘 텐 츠 정 보 를 자동 으로 기어 오 르 는 프로그램 으로 인터넷 거미 나 인터넷 로봇 으로 도 불 린 다.대형 파충류 프로그램 은 검색엔진,데이터 발굴 등 분야 에 널리 활용 되 고 있 으 며 개인 사용자 나 기업 도 파충류 로 자신 에 게 가치 있 는 데 이 터 를 수집 할 수 있다.
네트워크 파충류 프로그램의 기본 실행 절 차 는 세 가지 과정 을 요약 할 수 있다.요청 데이터,분석 데이터,저장 데이터
데이터 요청
요청 한 데 이 터 는 일반적인 HTML 외 에 도 json 데이터,문자열 데이터,이미지,비디오,오디 오 등 이 있 습 니 다.
분석 데이터
데이터 다운로드 가 완 료 된 후에 데이터 의 내용 을 분석 하고 필요 한 데 이 터 를 추출 합 니 다.추출 한 데 이 터 는 여러 가지 형식 으로 저장 할 수 있 습 니 다.데이터 의 형식 은 매우 다양 합 니 다.흔히 볼 수 있 는 것 은 csv,json,pickle 등 이 있 습 니 다.
데이터 저장
마지막 으로 데 이 터 를 어떤 형식(CSV,JSON)으로 파일 에 쓰 거나 데이터베이스(MySQL,MongoDB)에 저장 합 니 다.한 가지 또는 여러 가지 로 저장 합 니 다.
일반적으로 우리 가 얻 고 싶 은 데 이 터 는 한 페이지 에 만 있 는 것 이 아니 라 여러 페이지 에 분포 되 어 있 습 니 다.이 페이지 들 은 서로 연결 되 어 있 습 니 다.한 페이지 에 하나 이상 의 다른 페이지 로 가 는 링크 가 포함 되 어 있 을 수 있 습 니 다.현재 페이지 의 데 이 터 를 추출 한 후에 페이지 의 일부 링크 도 추출 한 다음 에 링크 페이지 를 기어 올 라 가 야 합 니 다(1-3 단계 순환).
파충류 프로그램 을 설계 할 때 는 같은 페이지(URL 무 게 를 줄 이 는 것),웹 검색 전략(깊이 우선 또는 넓이 우선 등),파충류 접근 경계 제한 등 일련의 문 제 를 반복 적 으로 차단 하 는 것 도 고려 해 야 한다.
파충 프로그램 을 처음부터 개발 하 는 것 은 번 거 로 운 일이 다.바퀴 를 만 드 는 데 많은 시간 을 소모 하지 않도록 실제 응용 에서 우 리 는 우수한 파충 프레임 워 크 를 사용 할 수 있다.프레임 워 크 를 사용 하면 개발 원 가 를 낮 추고 프로그램의 질 을 향상 시 켜 업무 논리(가치 있 는 데 이 터 를 얻 을 수 있다)에 전념 할 수 있다.다음은 현재 유행 하고 있 는 개원 파충류 프레임 워 크 스 크 래 피 를 배 워 보 자.
scrapy 설치
scrapy 홈 페이지:https://scrapy.org/
scrapy 중국어 문서:https://www.osgeo.cn/scrapy/intro/overview.html
설치 방법
임의의 운영 체제 에서 pip 를 사용 하여 Scrapy 를 설치 할 수 있 습 니 다.예 를 들 어:
pip install scrapy
설치 가 완 료 된 후에 우 리 는 설치 가 성공 적 인지 테스트 해 야 한다.다음 절 차 를 통 해 확인 해 야 한다.터미널 에서 scrapy 명령 을 실행 할 수 있 는 지 테스트 합 니 다.
scrapy 2.4.0 - no active project
usage:
scrapy <command>[options] [args]
Available commands :
bench Run quick benchmark test
fetch Fetch a URL using the scrapy down1oader
genspider Generate new spider using pre-defined temp1ates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
she11 Interactive scraping console
startproject create new project
version Print scrapy version
view open URL in browser,as seen by scrapy
[ more ] More commands available when run from project directory
use "scrapy <command> -h" to see more info about a command
scrapy bench 테스트 연결 성 을 입력 하 십시오.다음 과 같은 상황 이 발생 하면 설치 성공 을 표시 합 니 다.상기 두 가지 검 사 를 통과 한 것 은 Scrapy 설치 가 성공 했다 는 것 을 의미한다.위 에서 보 듯 이 우리 가 설치 한 것 은 현재 최신 버 전 2.4.0 이다.
주의:
Scrapy 를 설치 하 는 과정 에서 VC++등의 오류 가 발생 할 수 있 습 니 다.모듈 이 없 는 오프라인 패 키 지 를 설치 할 수 있 습 니 다.
성공 적 으로 설치 한 후 CMD 에서 scrapy 를 실행 합 니 다.위의 그림 이 성공 한 것 은 아 닙 니 다.scrapybench 테스트 를 성공 적 으로 사 용 했 는 지 확인 합 니 다.알림 오류 가 없 으 면 성공 적 으로 설치 한 것 입 니 다.
전역 명령
scrapy 2.4.0 - no active project
usage:
scrapy <command>[options] [args]
Available commands :
bench Run quick benchmark test #
fetch Fetch a URL using the scrapy down1oader#
genspider Generate new spider using pre-defined temp1ates# spider
runspider Run a self-contained spider (without creating a project)# craw1 ,scrapy runspider
settings Get settings values#
she11 Interactive scraping console# scrapy
startproject create new project#
version Print scrapy version# scrapy
view open URL in browser,as seen by scrapy# document ,
[ more ] More commands available when run from project directory
use "scrapy <command> -h" to see more info about a command
프로젝트 명령이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.