파 이 썬 파충류 기초 설명 scrapy 프레임 워 크

4674 단어 Python scrapy 프레임

인터넷 파충류
인터넷 파충 류 는 인터넷 에서 사이트 콘 텐 츠 정 보 를 자동 으로 기어 오 르 는 프로그램 으로 인터넷 거미 나 인터넷 로봇 으로 도 불 린 다.대형 파충류 프로그램 은 검색엔진,데이터 발굴 등 분야 에 널리 활용 되 고 있 으 며 개인 사용자 나 기업 도 파충류 로 자신 에 게 가치 있 는 데 이 터 를 수집 할 수 있다.
네트워크 파충류 프로그램의 기본 실행 절 차 는 세 가지 과정 을 요약 할 수 있다.요청 데이터,분석 데이터,저장 데이터
데이터 요청
요청 한 데 이 터 는 일반적인 HTML 외 에 도 json 데이터,문자열 데이터,이미지,비디오,오디 오 등 이 있 습 니 다.
분석 데이터
데이터 다운로드 가 완 료 된 후에 데이터 의 내용 을 분석 하고 필요 한 데 이 터 를 추출 합 니 다.추출 한 데 이 터 는 여러 가지 형식 으로 저장 할 수 있 습 니 다.데이터 의 형식 은 매우 다양 합 니 다.흔히 볼 수 있 는 것 은 csv,json,pickle 등 이 있 습 니 다.
데이터 저장
마지막 으로 데 이 터 를 어떤 형식(CSV,JSON)으로 파일 에 쓰 거나 데이터베이스(MySQL,MongoDB)에 저장 합 니 다.한 가지 또는 여러 가지 로 저장 합 니 다.
일반적으로 우리 가 얻 고 싶 은 데 이 터 는 한 페이지 에 만 있 는 것 이 아니 라 여러 페이지 에 분포 되 어 있 습 니 다.이 페이지 들 은 서로 연결 되 어 있 습 니 다.한 페이지 에 하나 이상 의 다른 페이지 로 가 는 링크 가 포함 되 어 있 을 수 있 습 니 다.현재 페이지 의 데 이 터 를 추출 한 후에 페이지 의 일부 링크 도 추출 한 다음 에 링크 페이지 를 기어 올 라 가 야 합 니 다(1-3 단계 순환).
파충류 프로그램 을 설계 할 때 는 같은 페이지(URL 무 게 를 줄 이 는 것),웹 검색 전략(깊이 우선 또는 넓이 우선 등),파충류 접근 경계 제한 등 일련의 문 제 를 반복 적 으로 차단 하 는 것 도 고려 해 야 한다.
파충 프로그램 을 처음부터 개발 하 는 것 은 번 거 로 운 일이 다.바퀴 를 만 드 는 데 많은 시간 을 소모 하지 않도록 실제 응용 에서 우 리 는 우수한 파충 프레임 워 크 를 사용 할 수 있다.프레임 워 크 를 사용 하면 개발 원 가 를 낮 추고 프로그램의 질 을 향상 시 켜 업무 논리(가치 있 는 데 이 터 를 얻 을 수 있다)에 전념 할 수 있다.다음은 현재 유행 하고 있 는 개원 파충류 프레임 워 크 스 크 래 피 를 배 워 보 자.
scrapy 설치
scrapy 홈 페이지:https://scrapy.org/
scrapy 중국어 문서:https://www.osgeo.cn/scrapy/intro/overview.html
설치 방법
임의의 운영 체제 에서 pip 를 사용 하여 Scrapy 를 설치 할 수 있 습 니 다.예 를 들 어:


pip install scrapy

설치 가 완 료 된 후에 우 리 는 설치 가 성공 적 인지 테스트 해 야 한다.다음 절 차 를 통 해 확인 해 야 한다.
터미널 에서 scrapy 명령 을 실행 할 수 있 는 지 테스트 합 니 다.


scrapy 2.4.0 - no active project
 
usage:
    scrapy <command>[options] [args]
 
Available commands :
    bench        Run quick benchmark test
    fetch        Fetch a URL using the scrapy down1oader
    genspider        Generate new spider using pre-defined temp1ates
    runspider        Run a self-contained spider (without creating a project)
    settings        Get settings values
    she11        Interactive scraping console
    startproject        create new project
    version        Print scrapy version
    view        open URL in browser,as seen by scrapy
 
    [ more ]        More commands available when run from project directory
 
use "scrapy <command> -h" to see more info about a command

scrapy bench 테스트 연결 성 을 입력 하 십시오.다음 과 같은 상황 이 발생 하면 설치 성공 을 표시 합 니 다.

상기 두 가지 검 사 를 통과 한 것 은 Scrapy 설치 가 성공 했다 는 것 을 의미한다.위 에서 보 듯 이 우리 가 설치 한 것 은 현재 최신 버 전 2.4.0 이다.
주의:
Scrapy 를 설치 하 는 과정 에서 VC++등의 오류 가 발생 할 수 있 습 니 다.모듈 이 없 는 오프라인 패 키 지 를 설치 할 수 있 습 니 다.

성공 적 으로 설치 한 후 CMD 에서 scrapy 를 실행 합 니 다.위의 그림 이 성공 한 것 은 아 닙 니 다.scrapybench 테스트 를 성공 적 으로 사 용 했 는 지 확인 합 니 다.알림 오류 가 없 으 면 성공 적 으로 설치 한 것 입 니 다.
전역 명령


scrapy 2.4.0 - no active project
 
usage:
  scrapy <command>[options] [args]
 
Available commands :
  bench      Run quick benchmark test #      
  fetch      Fetch a URL using the scrapy down1oader#             
  genspider      Generate new spider using pre-defined temp1ates#      spider  
  runspider      Run a self-contained spider (without creating a project)#      craw1      ，scrapy runspider      
  settings      Get settings values#         
  she11      Interactive scraping console#  scrapy      
  startproject      create new project#      
  version      Print scrapy version#  scrapy     
  view      open URL in browser，as seen by scrapy#   document      ，          
 
  [ more ]      More commands available when run from project directory
use "scrapy <command> -h" to see more info about a command

프로젝트 명령

scrapy startproject projectname

프로젝트 를 만 듭 니 다

scrapy genspider spidername domain

파충 류 를 만들다.파충류 프로젝트 를 만 든 후 에는 파충류 도 만들어 야 한다

scrapy crawl spidername

파충 류 를 운행 하 다.이 명령 이 실 행 될 때 있 는 디 렉 터 리 에 주의 하 십시오파 이 썬 파충류 기초 에 관 한 스 크 래 피 프레임 워 크 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 파 이 썬 스 크 래 피 프레임 워 크 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

Python의 None과 NULL의 차이점 상세 정보

그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

Python-OpenCV 의 cv2.inpaint()함수 사용

Python 에서 함수 의 정의 및 호출

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다