스파이더 파충류 기초 - 첫 주 지식 포인트
저번 주의 지식을 되돌아보다
1. 네트워크 요청 라이브러리
1.1 내장형 urllib 라이브러리
가방 세 개urllib.request
urllib.parse
urllib.error
네트워크 요청 대상 Request 라이브러리의 함수나 클래스
urllib.request
urllib.parse
urllib.error
Request 클래스를 구성하는 실례 대상 (instance) 초기화 매개 변수 (init () 방법에서 사용)
build_opener () 방법에서 만들 수 있는 요청 프로세서 클래스
그것의 핵심 방법은 오픈(url|Request)이다
HTTPResponse 클래스 객체에 응답하는 방법:
1.2 Requests 라이브러리
제3자 요청 라이브러리는 내부에 urllib/urllib3의 방법이나 클래스를 봉하여 더욱 간결하고 잘 사용할 수 있는 네트워크 요청을 만들었다.
가장 핵심적인 방법
응답 클래스 Response 객체의 속성 및 방법
2. 데이터 분석
re
lxml xpath - list[, ]
- Element xpath() /.text /.get( )
bs4 selector - list[ ]
- find('div')
- find_all('div')
- selector_one('')
- selector('')
- attrs.get(' ')
- .a.b.c[' ']
- string/text
3. 동시 네트워크 요청
다중 스레드 간 통신(queue.Queue)
4. Seleinum 라이브러리
네트워크 요청, 데이터 해석 및 동적 js 렌더링 기능을 종합하여 풍부한 방법이나 속성을 제공합니다.아날로그 브라우저, 크롬이나 Firfox 등 유명 브라우저driver 드라이버를 제공하여 브라우저를 실행하고 네트워크 요청을 수행합니다. 렌더링 후에 요소 Element 추출 방법을 제공하여 목표 내용을 신속하게 얻거나 해석할 수 있습니다.
이 도구를 사용하면 UI 자동화 테스트, 동적 js 렌더링 등에 사용됩니다.
핵심적 방법
5. ElastichSearch 검색엔진 배포 및 API
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.