python 으로 파충류 쓰 는 게 쉬 워 요?

3123 단어 python 파충

인터넷 파충류 란 일반적으로 우리 가 필요 로 하 는 URL 에 http 요청 을 해서 이 URL 에 대응 하 는 http 메시지 의 주체 내용 을 얻 은 다음 에 이 메시지 주체 에서 우리 가 필요 로 하 는 정 보 를 추출 하 는 것 이다.
다음은 간단 한 파충류 프로그램 입 니 다.
기본 지식
브 라 우 저 를 통 해 지정 한 URL 에 접근 할 때 http 프로 토 콜 을 준수 해 야 합 니 다.이 절 은 http 에 관 한 기초 지식 을 소개 할 것 이다.
http 기본 프로 세 스
우리 가 웹 페이지 를 여 는 과정 은 http 요청 의 과정 입 니 다.이 과정 에서 우리 자신의 호스트 는 클 라 이언 트 기기 의 역할 을 하고 클 라 이언 트 가 되 는 것 은 브 라 우 저 입 니 다.우리 가 입력 한 URL 은 네트워크 의 한 서버 위의 자원 에 대응 합 니 다.서버 는 클 라 이언 트 가 보 낸 http 요청 을 받 은 후에 클 라 이언 트 에 게 응답 을 합 니 다.응답 하 는 내용 은 요청 한 URL 에 대응 하 는 내용 입 니 다.클 라 이언 트 가 서버 의 응답 을 받 았 을 때 우 리 는 브 라 우 저 에서 요청 한 정 보 를 볼 수 있 습 니 다.
python 의 requests 모듈 을 통 해 http 요청 을 편리 하 게 할 수 있 습 니 다.requests 모듈 은 제3자 모듈 로 설치 가 완료 되면 바로 import 로 사용 할 수 있 습 니 다.간단 한 용법 을 소개 하 겠 습 니 다.
요청 을 하 다


import requests
#        
headers = {
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
  Chrome/65.0.3325.146 Safari/537.36'
}
#    url
url = 'https://voice.hupu.com/nba' #   nba  
#   requests   get  ，    url    
#         Response  
res = requests.get(url, headers=headers)
#   Response   text           
print(res.text)

위의 코드 에서 우 리 는 호랑이 가 덮 친 서버 에 get 요청 을 보 내 호랑이 가 첫 페이지 에 덮 친 nba 뉴스 를 가 져 왔 다.headers 매개 변 수 는 http 에서 요청 한 첫 번 째 정 보 를 말 합 니 다.저희 가 요청 한 url 에 대응 하 는 자원 은 호랑이 nba 뉴스의 첫 페이지 입 니 다.해당 하 는 웹 페이지 자원 을 얻 은 후에 우 리 는 그 중의 정 보 를 추출 해 야 한다.
BeautifulSoup 을 통 해 웹 페이지 정 보 를 추출 합 니 다.
BeautifulSoup 라 이브 러 리 는 html 를 분석 하 는 방법 을 많이 제공 하여 우리 가 필요 로 하 는 내용 을 편리 하 게 추출 할 수 있 습 니 다.여기 서 말 하 는 Beautiful Soup 은 bs4 를 말 합 니 다.우리 가 웹 페이지 를 성공 적 으로 캡 처 한 후에 BeautifulSoup 대상 을 통 해 웹 페이지 의 내용 을 분석 할 수 있다.BeautifulSoup 에서 우리 가 가장 자주 사용 하 는 방법 은 find()방법 과 find 입 니 다.all()방법 은 이 두 가지 방법 을 통 해 우리 가 필요 로 하 는 태그 나 태그 그룹 을 쉽게 얻 을 수 있 습 니 다.다른 방법 에 대해 서 는 bs4 의 공식 문 서 를 참고 할 수 있 습 니 다:BeautifulSoup
find()방법 과 findall()방법의 용법 은 다음 과 같다.


find(name , attrs , recursive , string , **kwargs )
# find_all()               tag，
find_all(name , attrs , recursive , string , **kwargs )


from bs4 import BeautifulSoup
# BeautifulSoup    html     
# lxml html   
soup = Beautiful(res.text, 'lxml')
#           class hello span  
#             list  
tags = soup.find_all('span', {'class': 'hello'})

인 스 턴 스 확장:
실례 1:


#     
import urllib2 # urllib2     
response=urllib2.urlopen("http://www.baidu.com") #       ，        response   
html=response.read() #  response   read（）  ，        hhtml  
print html #

실례 2:


#     
import urllib2
req=urllib2.Request("http://ww.baidu.com")
response=urllib2.urlopen(req)
html = response.read()
print html

python 으로 파충 류 를 쓰 는 것 이 쉬 운 지 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 관련 python 이 파충 류 를 쓰 는 것 이 어 려 운 지 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

로마 숫자를 정수로 또는 그 반대로 변환

그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

자바 기초 Servlet 모니터 상세 설명

php 와 js 를 이용 하여 페이지 데이터 리 셋 실현

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다