python 으로 파충류 쓰 는 게 쉬 워 요?

3123 단어 python파충
인터넷 파충류 란 일반적으로 우리 가 필요 로 하 는 URL 에 http 요청 을 해서 이 URL 에 대응 하 는 http 메시지 의 주체 내용 을 얻 은 다음 에 이 메시지 주체 에서 우리 가 필요 로 하 는 정 보 를 추출 하 는 것 이다.
다음은 간단 한 파충류 프로그램 입 니 다.
기본 지식
브 라 우 저 를 통 해 지정 한 URL 에 접근 할 때 http 프로 토 콜 을 준수 해 야 합 니 다.이 절 은 http 에 관 한 기초 지식 을 소개 할 것 이다.
http 기본 프로 세 스
우리 가 웹 페이지 를 여 는 과정 은 http 요청 의 과정 입 니 다.이 과정 에서 우리 자신의 호스트 는 클 라 이언 트 기기 의 역할 을 하고 클 라 이언 트 가 되 는 것 은 브 라 우 저 입 니 다.우리 가 입력 한 URL 은 네트워크 의 한 서버 위의 자원 에 대응 합 니 다.서버 는 클 라 이언 트 가 보 낸 http 요청 을 받 은 후에 클 라 이언 트 에 게 응답 을 합 니 다.응답 하 는 내용 은 요청 한 URL 에 대응 하 는 내용 입 니 다.클 라 이언 트 가 서버 의 응답 을 받 았 을 때 우 리 는 브 라 우 저 에서 요청 한 정 보 를 볼 수 있 습 니 다.
python 의 requests 모듈 을 통 해 http 요청 을 편리 하 게 할 수 있 습 니 다.requests 모듈 은 제3자 모듈 로 설치 가 완료 되면 바로 import 로 사용 할 수 있 습 니 다.간단 한 용법 을 소개 하 겠 습 니 다.
요청 을 하 다

import requests
#        
headers = {
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
  Chrome/65.0.3325.146 Safari/537.36'
}
#    url
url = 'https://voice.hupu.com/nba' #   nba  
#   requests   get  ,    url    
#         Response  
res = requests.get(url, headers=headers)
#   Response   text           
print(res.text)
위의 코드 에서 우 리 는 호랑이 가 덮 친 서버 에 get 요청 을 보 내 호랑이 가 첫 페이지 에 덮 친 nba 뉴스 를 가 져 왔 다.headers 매개 변 수 는 http 에서 요청 한 첫 번 째 정 보 를 말 합 니 다.저희 가 요청 한 url 에 대응 하 는 자원 은 호랑이 nba 뉴스의 첫 페이지 입 니 다.해당 하 는 웹 페이지 자원 을 얻 은 후에 우 리 는 그 중의 정 보 를 추출 해 야 한다.
BeautifulSoup 을 통 해 웹 페이지 정 보 를 추출 합 니 다.
BeautifulSoup 라 이브 러 리 는 html 를 분석 하 는 방법 을 많이 제공 하여 우리 가 필요 로 하 는 내용 을 편리 하 게 추출 할 수 있 습 니 다.여기 서 말 하 는 Beautiful Soup 은 bs4 를 말 합 니 다.우리 가 웹 페이지 를 성공 적 으로 캡 처 한 후에 BeautifulSoup 대상 을 통 해 웹 페이지 의 내용 을 분석 할 수 있다.BeautifulSoup 에서 우리 가 가장 자주 사용 하 는 방법 은 find()방법 과 find 입 니 다.all()방법 은 이 두 가지 방법 을 통 해 우리 가 필요 로 하 는 태그 나 태그 그룹 을 쉽게 얻 을 수 있 습 니 다.다른 방법 에 대해 서 는 bs4 의 공식 문 서 를 참고 할 수 있 습 니 다:BeautifulSoup
find()방법 과 findall()방법의 용법 은 다음 과 같다.

find(name , attrs , recursive , string , **kwargs )
# find_all()               tag,
find_all(name , attrs , recursive , string , **kwargs )

from bs4 import BeautifulSoup
# BeautifulSoup    html     
# lxml html   
soup = Beautiful(res.text, 'lxml')
#           class hello span  
#             list  
tags = soup.find_all('span', {'class': 'hello'})
인 스 턴 스 확장:
실례 1:

#     
import urllib2 # urllib2     
response=urllib2.urlopen("http://www.baidu.com") #       ,        response   
html=response.read() #  response   read()  ,        hhtml  
print html #    
실례 2:

#     
import urllib2
req=urllib2.Request("http://ww.baidu.com")
response=urllib2.urlopen(req)
html = response.read()
print html
python 으로 파충 류 를 쓰 는 것 이 쉬 운 지 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 관련 python 이 파충 류 를 쓰 는 것 이 어 려 운 지 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

좋은 웹페이지 즐겨찾기