파 이 썬 파충류 기초 설명 scrapy 프레임 워 크

4674 단어 Pythonscrapy프레임
인터넷 파충류
인터넷 파충 류 는 인터넷 에서 사이트 콘 텐 츠 정 보 를 자동 으로 기어 오 르 는 프로그램 으로 인터넷 거미 나 인터넷 로봇 으로 도 불 린 다.대형 파충류 프로그램 은 검색엔진,데이터 발굴 등 분야 에 널리 활용 되 고 있 으 며 개인 사용자 나 기업 도 파충류 로 자신 에 게 가치 있 는 데 이 터 를 수집 할 수 있다.
네트워크 파충류 프로그램의 기본 실행 절 차 는 세 가지 과정 을 요약 할 수 있다.요청 데이터,분석 데이터,저장 데이터
데이터 요청
요청 한 데 이 터 는 일반적인 HTML 외 에 도 json 데이터,문자열 데이터,이미지,비디오,오디 오 등 이 있 습 니 다.
분석 데이터
데이터 다운로드 가 완 료 된 후에 데이터 의 내용 을 분석 하고 필요 한 데 이 터 를 추출 합 니 다.추출 한 데 이 터 는 여러 가지 형식 으로 저장 할 수 있 습 니 다.데이터 의 형식 은 매우 다양 합 니 다.흔히 볼 수 있 는 것 은 csv,json,pickle 등 이 있 습 니 다.
데이터 저장
마지막 으로 데 이 터 를 어떤 형식(CSV,JSON)으로 파일 에 쓰 거나 데이터베이스(MySQL,MongoDB)에 저장 합 니 다.한 가지 또는 여러 가지 로 저장 합 니 다.
일반적으로 우리 가 얻 고 싶 은 데 이 터 는 한 페이지 에 만 있 는 것 이 아니 라 여러 페이지 에 분포 되 어 있 습 니 다.이 페이지 들 은 서로 연결 되 어 있 습 니 다.한 페이지 에 하나 이상 의 다른 페이지 로 가 는 링크 가 포함 되 어 있 을 수 있 습 니 다.현재 페이지 의 데 이 터 를 추출 한 후에 페이지 의 일부 링크 도 추출 한 다음 에 링크 페이지 를 기어 올 라 가 야 합 니 다(1-3 단계 순환).
파충류 프로그램 을 설계 할 때 는 같은 페이지(URL 무 게 를 줄 이 는 것),웹 검색 전략(깊이 우선 또는 넓이 우선 등),파충류 접근 경계 제한 등 일련의 문 제 를 반복 적 으로 차단 하 는 것 도 고려 해 야 한다.
파충 프로그램 을 처음부터 개발 하 는 것 은 번 거 로 운 일이 다.바퀴 를 만 드 는 데 많은 시간 을 소모 하지 않도록 실제 응용 에서 우 리 는 우수한 파충 프레임 워 크 를 사용 할 수 있다.프레임 워 크 를 사용 하면 개발 원 가 를 낮 추고 프로그램의 질 을 향상 시 켜 업무 논리(가치 있 는 데 이 터 를 얻 을 수 있다)에 전념 할 수 있다.다음은 현재 유행 하고 있 는 개원 파충류 프레임 워 크 스 크 래 피 를 배 워 보 자.
scrapy 설치
scrapy 홈 페이지:https://scrapy.org/
scrapy 중국어 문서:https://www.osgeo.cn/scrapy/intro/overview.html
설치 방법
임의의 운영 체제 에서 pip 를 사용 하여 Scrapy 를 설치 할 수 있 습 니 다.예 를 들 어:

pip install scrapy
설치 가 완 료 된 후에 우 리 는 설치 가 성공 적 인지 테스트 해 야 한다.다음 절 차 를 통 해 확인 해 야 한다.
터미널 에서 scrapy 명령 을 실행 할 수 있 는 지 테스트 합 니 다.

scrapy 2.4.0 - no active project
 
usage:
    scrapy <command>[options] [args]
 
Available commands :
    bench        Run quick benchmark test
    fetch        Fetch a URL using the scrapy down1oader
    genspider        Generate new spider using pre-defined temp1ates
    runspider        Run a self-contained spider (without creating a project)
    settings        Get settings values
    she11        Interactive scraping console
    startproject        create new project
    version        Print scrapy version
    view        open URL in browser,as seen by scrapy
 
    [ more ]        More commands available when run from project directory
 
use "scrapy <command> -h" to see more info about a command
scrapy bench 테스트 연결 성 을 입력 하 십시오.다음 과 같은 상황 이 발생 하면 설치 성공 을 표시 합 니 다.

상기 두 가지 검 사 를 통과 한 것 은 Scrapy 설치 가 성공 했다 는 것 을 의미한다.위 에서 보 듯 이 우리 가 설치 한 것 은 현재 최신 버 전 2.4.0 이다.
주의:
Scrapy 를 설치 하 는 과정 에서 VC++등의 오류 가 발생 할 수 있 습 니 다.모듈 이 없 는 오프라인 패 키 지 를 설치 할 수 있 습 니 다.

성공 적 으로 설치 한 후 CMD 에서 scrapy 를 실행 합 니 다.위의 그림 이 성공 한 것 은 아 닙 니 다.scrapybench 테스트 를 성공 적 으로 사 용 했 는 지 확인 합 니 다.알림 오류 가 없 으 면 성공 적 으로 설치 한 것 입 니 다.
전역 명령

scrapy 2.4.0 - no active project
 
usage:
  scrapy <command>[options] [args]
 
Available commands :
  bench      Run quick benchmark test #      
  fetch      Fetch a URL using the scrapy down1oader#             
  genspider      Generate new spider using pre-defined temp1ates#      spider  
  runspider      Run a self-contained spider (without creating a project)#      craw1      ,scrapy runspider      
  settings      Get settings values#         
  she11      Interactive scraping console#  scrapy      
  startproject      create new project#      
  version      Print scrapy version#  scrapy     
  view      open URL in browser,as seen by scrapy#   document      ,          
 
  [ more ]      More commands available when run from project directory
use "scrapy <command> -h" to see more info about a command
프로젝트 명령
  • scrapy startproject projectname
  • 프로젝트 를 만 듭 니 다
  • scrapy genspider spidername domain
  • 파충 류 를 만들다.파충류 프로젝트 를 만 든 후 에는 파충류 도 만들어 야 한다
  • scrapy crawl spidername
  • 파충 류 를 운행 하 다.이 명령 이 실 행 될 때 있 는 디 렉 터 리 에 주의 하 십시오파 이 썬 파충류 기초 에 관 한 스 크 래 피 프레임 워 크 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 파 이 썬 스 크 래 피 프레임 워 크 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

    좋은 웹페이지 즐겨찾기