python 파충류 가 사용 할 라 이브 러 리: 요청 라 이브 러 리:HTTP 요청 실행
urllib:URL 을 조작 하 는 일련의 기능.
requests:urllib 를 기반 으로 작 성 된 차단 식 HTTP 요청 라 이브 러 리 입 니 다.요청 을 보 내 고 서버 응답 을 기다 린 후에 야 프로그램 이 다음 처 리 를 할 수 있 습 니 다.
selenium:자동화 테스트 도구.브 라 우 저 를 호출 하 는 driver 입 니 다.이 라 이브 러 리 를 통 해 인증 코드 를 입력 하 는 등 브 라 우 저 를 직접 호출 할 수 있 습 니 다.
aiohttp:asyncio 를 기반 으로 한 HTTP 프레임 워 크 입 니 다.비동기 작업 은 async/await 키 워드 를 빌려 비동기 라 이브 러 리 를 사용 하여 데이터 캡 처 를 하면 효율 을 크게 높 일 수 있 습 니 다.
분석 라 이브 러 리:웹 페이지 에서 정보 추출
beautifulsoup:html 와 XML 의 해석 은 웹 페이지 에서 정 보 를 추출 하 는 동시에 강력 한 API 와 다양한 해석 방식 을 가진다.
pyquery:jQuery 의 Python 이 실현 되 었 습 니 다.jQuery 의 문법 으로 HTML 문 서 를 해석 할 수 있 고 용이 성과 해석 속도 가 좋 습 니 다.
lxml:HTML 과 XML 의 해석 을 지원 하고 XPath 해석 방식 을 지원 하 며 해석 효율 이 매우 높 습 니 다.
tesserocr:OCR 라 이브 러 리 로 인증 코드(도형 인증 코드 위주)를 만 났 을 때 OCR 로 직접 식별 할 수 있 습 니 다.
저장 소:Python 과 데이터베이스 상호작용
pymysql:순수한 Python 에서 실 현 된 MySQL 클 라 이언 트 라 이브 러 리 입 니 다.
pymongo:mongodb 데이터 베 이 스 를 직접 연결 하여 조회 작업 을 하 는 라 이브 러 리 입 니 다.
redisdump:redis 데이터 가 져 오기/내 보 내기 에 사용 되 는 도구 입 니 다.ruby 기반 으로 이 루어 졌 기 때문에 이 를 사용 하려 면 Ruby 를 먼저 설치 해 야 합 니 다.
파충류 의 틀
Scrapy:강력 한 파충류 프레임 워 크 로 간단 한 페이지 오 르 기 를 만족 시 킬 수 있 습 니 다(예 를 들 어 url pattern 의 상황 을 명확 하 게 알 수 있 습 니 다).이 프레임 워 크 를 이용 하면 아마 존 상품 정보 와 같은 데 이 터 를 쉽게 내 려 올 수 있다.그러나 약간 복잡 한 페이지,예 를 들 어 weibo 의 페이지 정보 에 대해 이 프레임 워 크 는 수 요 를 만족 시 킬 수 없다.4567918)
Crawley:해당 사이트 의 내용 을 고속 으로 추출 하고 관계 와 비관 계 데이터 베 이 스 를 지원 하 며 데 이 터 는 JSON,XML 등 으로 내 보 낼 수 있 습 니 다.
Portia:웹 페이지 의 내용 을 시각 적 으로 추출 합 니 다.
newspaper:뉴스,글 과 내용 분석 을 추출 합 니 다.
python-goose:자바 가 쓴 글 추출 도구 입 니 다.
cola:분포 식 파충류 프레임 워 크프로젝트 의 전체적인 디자인 이 좀 나 빠 서 모듈 간 의 결합 도가 비교적 높다.
웹 프레임 워 크 라 이브 러 리
flask:경량급 웹 서비스 프로그램 으로 간단 하고 사용 하기 쉬 우 며 유연 하 며 주로 API 서 비 스 를 합 니 다.대리 할 때 사용 할 수 있 습 니 다.4567918)
django:웹 서버 프레임 워 크 로 완전한 배경 관리,엔진,인터페이스 등 을 제공 합 니 다.이 를 사용 하면 전체 사이트 가 될 수 있 습 니 다.
관점 확장: 파충 류 를 배 우 는 최초의 조작 은 아 날로 그 브 라 우 저가 서버 에 요청 하 는 것 입 니 다.그러면 우 리 는 어느 곳 부터 시작 해 야 합 니까?저희 가 직접 만들어 달라 고요?이 데이터 구조의 실현 에 관심 을 가 져 야 합 니까?HTTP,TCP,IP 계층 의 네트워크 전송 통신 에 대해 알 아야 합 니까?서버 의 응답 과 응답 원리 까지 필요 합 니까? 너 는 이런 것들 에 대해 전혀 모 르 는 지 손 을 쓸 방법 이 없다.그러나 괜 찮 습 니 다.python 은 우리 에 게 이러한 요 구 를 완성 할 수 있 도록 기능 이 완 비 된 라 이브 러 리 를 제공 합 니 다.가장 기본 적 인 HTTP 라 이브 러 리 는 urllib,requests,treq 등 이 있 습 니 다. urllib 의 경우,그것 이 있 으 면,우 리 는 요청 한 연결 이 무엇 인지 에 만 관심 을 가 져 야 한다.전송 해 야 할 매개 변수 가 무엇 인지,선택 할 수 있 는 요청 헤드 를 어떻게 설정 하 는 지,도대체 어떻게 전송 하고 통신 하 는 지 깊이 파고 들 지 않 아 도 된다.그것 이 있 으 면 두 줄 의 코드 는 하나의 요청 과 해당 하 는 처리 과정 을 완성 하고 웹 페이지 의 내용 을 얻 을 수 있 습 니 다.매우 편리 하지 않 습 니까? 이상 은 python 파충류 가 사용 할 라 이브 러 리 에 대한 상세 한 내용 입 니 다.python 파충류 가 어떤 라 이브 러 리 를 사용 해 야 하 는 지 에 대한 자 료 는 다른 관련 글 을 주목 하 세 요!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다: