손 이 간단 하고 기능 이 강 한 Python 파충류 프레임 워 크―feapder

간단 한 소개
feapder 는 손 이 간단 하고 기능 이 강 한 Python 파충류 프레임 워 크 로 사용 방식 이 scrapy 와 유사 하여 scrapy 프레임 워 크 에서 전환 하기 편리 하 며 프레임 에 3 가지 파충류 가 내장 되 어 있 습 니 다.
에 어 스파이 더 파충 류 는 비교적 가 볍 고 학습 원가 가 낮다.일부 데 이 터 량 이 비교적 적 고 단점 이 없 으 며 분포 식 채집 수요 가 없 으 면 이 파충 류 를 사용 할 수 있다4.567917.Spider 는 redis 를 바탕 으로 하 는 분포 식 파충류 로 대량의 데이터 수집 에 적용 되 며 정지점 의 계속 기어 오 르 기,파충류 경보,데이터 자동 입고 등 기능 을 지원 합 니 다
  • BatchSpider 는 분포 식 일괄 파충류 로 주기 적 으로 수집 해 야 하 는 데이터 에 대해 본 파충류 의 사용 을 우선 고려한다
  • feapder 는 정지점 리 셋,데이터 분실 방지,모니터링 경 보 를 지원 하 는 동시에 브 라 우 저 렌 더 링 다운 로드 를 지원 합 니 다.사용자 정의 입고 pipeline 을 지원 하여 다른 데이터 베 이 스 를 연결 할 수 있 습 니 다(기본 데이터 베 이 스 는 Mysql 입 니 다.데 이 터 는 자동 으로 입고 할 수 있 습 니 다.pipeline 을 작성 할 필요 가 없습니다)
    독음ˈfiːpdə]
    공식 문서
    국내 문서
  • github: http://feapder.com
  • 업데이트 로그
    환경 요구 사항:
  • Python 3.6.0+
  • Works on Linux, Windows, macOS
  • 설치 하 다.
    From PyPi:
    통용 판
    
    pip3 install feapder
    전체 버 전:
    
    pip3 install feapder[all]
    유 니 버 설 버 전과 전체 버 전의 차이 점:
    전체 버 전 은 메모리 기반 무 게 를 지원 합 니 다.
    전체 버 전 은 설치 오류 가 발생 할 수 있 습 니 다.설치 오류 가 발생 하면 참고 하 십시오https://boris-code.gitee.io/feapder
    잠깐 시험 해 보다
    파충 류 를 만들다
    
    feapder create -s first_spider
    생 성 된 파충류 코드 는 다음 과 같 습 니 다:
    
    import feapder
    
    
    class FirstSpider(feapder.AirSpider):
        def start_requests(self):
            yield feapder.Request("https://www.baidu.com")
    
        def parse(self, request, response):
            print(response)
    
    
    if __name__ == "__main__":
        FirstSpider().start()
    직접 실행,인쇄 는 다음 과 같 습 니 다:
    
    Thread-2|2021-02-09 14:55:11,373|request.py|get_response|line:283|DEBUG|
                    -------------- FirstSpider.parse request for ----------------
                    url  = https://www.baidu.com
                    method = GET
                    body = {'timeout': 22, 'stream': True, 'verify': False, 'headers': {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36'}}
    
    <Response [200]>
    Thread-2|2021-02-09 14:55:11,610|parser_control.py|run|line:415|DEBUG| parser      ...
    FirstSpider|2021-02-09 14:55:14,620|air_spider.py|run|line:80|INFO|    ,    
    코드 설명 은 다음 과 같 습 니 다.
  • start_requests:생산 임무
  • parse:분석 데이터
    요청 헤 더 를 json 형식 으로 변환 합 니 다.
    파충류 채집 에서 우 리 는 항상 사이트 의 header 등 인 자 를 휴대 해 야 한다.예 를 들 어 우 리 는 브 라 우 저 검사 도구 에서 어떤 요청 머리 를 볼 수 있다.
    
    Accept-Encoding: gzip, deflate, br
    Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
    Cache-Control: max-age=0
    Connection: keep-alive
    User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36
    요청 을 보 낼 때 이 헤 더 를 휴대 하려 면 json 형식 으로 수 동 으로 변환 해 야 합 니 다.
    쓰다
    명령 입력,리 턴
    
    > feapder create -j
              :(xxx:xxx  ,    )

    출력 은 다음 과 같 습 니 다:

    또한,feapder 는 질서 있 는 사전 을 만 드 는 것 을 지원 하여 매개 변수 전후의 변 화 를 비교 할 수 있 습 니 다.
    명령 은:
    
    feapder create -sj
    이상 은 간단 하고 기능 이 강 한 Python 파충류 프레임 워 크-feapder 의 상세 한 내용 입 니 다.Python 파충류 프레임 워 크 feapder 에 관 한 자 료 는 우리 의 다른 관련 글 을 주목 하 세 요!

    좋은 웹페이지 즐겨찾기