python 파충류 가 사용 할 라 이브 러 리 요약

python 파충류 가 사용 할 라 이브 러 리:
요청 라 이브 러 리:HTTP 요청 실행
  • urllib:URL 을 조작 하 는 일련의 기능.
  • requests:urllib 를 기반 으로 작 성 된 차단 식 HTTP 요청 라 이브 러 리 입 니 다.요청 을 보 내 고 서버 응답 을 기다 린 후에 야 프로그램 이 다음 처 리 를 할 수 있 습 니 다.
  • selenium:자동화 테스트 도구.브 라 우 저 를 호출 하 는 driver 입 니 다.이 라 이브 러 리 를 통 해 인증 코드 를 입력 하 는 등 브 라 우 저 를 직접 호출 할 수 있 습 니 다.
  • aiohttp:asyncio 를 기반 으로 한 HTTP 프레임 워 크 입 니 다.비동기 작업 은 async/await 키 워드 를 빌려 비동기 라 이브 러 리 를 사용 하여 데이터 캡 처 를 하면 효율 을 크게 높 일 수 있 습 니 다.
  • 분석 라 이브 러 리:웹 페이지 에서 정보 추출
  • beautifulsoup:html 와 XML 의 해석 은 웹 페이지 에서 정 보 를 추출 하 는 동시에 강력 한 API 와 다양한 해석 방식 을 가진다.
  • pyquery:jQuery 의 Python 이 실현 되 었 습 니 다.jQuery 의 문법 으로 HTML 문 서 를 해석 할 수 있 고 용이 성과 해석 속도 가 좋 습 니 다.
  • lxml:HTML 과 XML 의 해석 을 지원 하고 XPath 해석 방식 을 지원 하 며 해석 효율 이 매우 높 습 니 다.
  • tesserocr:OCR 라 이브 러 리 로 인증 코드(도형 인증 코드 위주)를 만 났 을 때 OCR 로 직접 식별 할 수 있 습 니 다.
  • 저장 소:Python 과 데이터베이스 상호작용
  • pymysql:순수한 Python 에서 실 현 된 MySQL 클 라 이언 트 라 이브 러 리 입 니 다.
  • pymongo:mongodb 데이터 베 이 스 를 직접 연결 하여 조회 작업 을 하 는 라 이브 러 리 입 니 다.
  • redisdump:redis 데이터 가 져 오기/내 보 내기 에 사용 되 는 도구 입 니 다.ruby 기반 으로 이 루어 졌 기 때문에 이 를 사용 하려 면 Ruby 를 먼저 설치 해 야 합 니 다.
  • 파충류 의 틀
  • Scrapy:강력 한 파충류 프레임 워 크 로 간단 한 페이지 오 르 기 를 만족 시 킬 수 있 습 니 다(예 를 들 어 url pattern 의 상황 을 명확 하 게 알 수 있 습 니 다).이 프레임 워 크 를 이용 하면 아마 존 상품 정보 와 같은 데 이 터 를 쉽게 내 려 올 수 있다.그러나 약간 복잡 한 페이지,예 를 들 어 weibo 의 페이지 정보 에 대해 이 프레임 워 크 는 수 요 를 만족 시 킬 수 없다.4567918)
  • Crawley:해당 사이트 의 내용 을 고속 으로 추출 하고 관계 와 비관 계 데이터 베 이 스 를 지원 하 며 데 이 터 는 JSON,XML 등 으로 내 보 낼 수 있 습 니 다.
  • Portia:웹 페이지 의 내용 을 시각 적 으로 추출 합 니 다.
  • newspaper:뉴스,글 과 내용 분석 을 추출 합 니 다.
  • python-goose:자바 가 쓴 글 추출 도구 입 니 다.
  • cola:분포 식 파충류 프레임 워 크프로젝트 의 전체적인 디자인 이 좀 나 빠 서 모듈 간 의 결합 도가 비교적 높다.
  • 웹 프레임 워 크 라 이브 러 리
  • flask:경량급 웹 서비스 프로그램 으로 간단 하고 사용 하기 쉬 우 며 유연 하 며 주로 API 서 비 스 를 합 니 다.대리 할 때 사용 할 수 있 습 니 다.4567918)
  • django:웹 서버 프레임 워 크 로 완전한 배경 관리,엔진,인터페이스 등 을 제공 합 니 다.이 를 사용 하면 전체 사이트 가 될 수 있 습 니 다.
  • 관점 확장:
    파충 류 를 배 우 는 최초의 조작 은 아 날로 그 브 라 우 저가 서버 에 요청 하 는 것 입 니 다.그러면 우 리 는 어느 곳 부터 시작 해 야 합 니까?저희 가 직접 만들어 달라 고요?이 데이터 구조의 실현 에 관심 을 가 져 야 합 니까?HTTP,TCP,IP 계층 의 네트워크 전송 통신 에 대해 알 아야 합 니까?서버 의 응답 과 응답 원리 까지 필요 합 니까?
    너 는 이런 것들 에 대해 전혀 모 르 는 지 손 을 쓸 방법 이 없다.그러나 괜 찮 습 니 다.python 은 우리 에 게 이러한 요 구 를 완성 할 수 있 도록 기능 이 완 비 된 라 이브 러 리 를 제공 합 니 다.가장 기본 적 인 HTTP 라 이브 러 리 는 urllib,requests,treq 등 이 있 습 니 다.
    urllib 의 경우,그것 이 있 으 면,우 리 는 요청 한 연결 이 무엇 인지 에 만 관심 을 가 져 야 한다.전송 해 야 할 매개 변수 가 무엇 인지,선택 할 수 있 는 요청 헤드 를 어떻게 설정 하 는 지,도대체 어떻게 전송 하고 통신 하 는 지 깊이 파고 들 지 않 아 도 된다.그것 이 있 으 면 두 줄 의 코드 는 하나의 요청 과 해당 하 는 처리 과정 을 완성 하고 웹 페이지 의 내용 을 얻 을 수 있 습 니 다.매우 편리 하지 않 습 니까?
    이상 은 python 파충류 가 사용 할 라 이브 러 리 에 대한 상세 한 내용 입 니 다.python 파충류 가 어떤 라 이브 러 리 를 사용 해 야 하 는 지 에 대한 자 료 는 다른 관련 글 을 주목 하 세 요!

    좋은 웹페이지 즐겨찾기