python 파충류 403 접근 금지 오류 상세 설명

python 파충류 403 접근 금지 오류 해결
Python 에서 파충 류 를 쓸 때 html.getcode()는 403 접근 금지 문제 에 부 딪 힐 수 있 습 니 다.이것 은 사이트 가 자동화 파충 류 를 금지 하 는 것 입 니 다.이 문 제 를 해결 하려 면 python 모듈 urllib 2 모듈 을 사용 해 야 합 니 다.
urllib 2 모듈 은 진급 하 는 파충류 잡기 모듈 로 매우 많은 방법 이 있 습 니 다.예 를 들 어 url=/www.jb51.net/qysh 123 을 연결 하면 403 접근 금지 문제 가 발생 할 수 있 습 니 다.
이 문 제 를 해결 하려 면 다음 과 같은 몇 가지 절차 가 필요 하 다.

<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","//www.jb51.net/")
그 중에서 User-agent 는 브 라 우 저 특유 의 속성 으로 브 라 우 저 를 통 해 소스 코드 를 보면 볼 수 있다.
그리고

html=urllib2.urlopen(req)


print html.read()
403 접근 금지 문제 없 이 웹 코드 를 모두 다운로드 할 수 있다.
상기 문제 에 대해 서 는 함수 로 포장 하여 나중에 사용 하기에 편리 하도록 제공 할 수 있 습 니 다.구체 적 인 코드 는:

#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="//www.jb51.net/article/1.htm" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
  
] 
def get_content(url,headers): 
 ''''' 
 @  403        
 ''' 
 randdom_header=random.choice(headers) 
 
 req=urllib2.Request(url) 
 req.add_header("User-Agent",randdom_header) 
 req.add_header("Host","blog.csdn.net") 
 req.add_header("Referer","//www.jb51.net/") 
 req.add_header("GET",url) 
 
 content=urllib2.urlopen(req).read() 
 return content 
 
print get_content(url,my_headers) 
그 중에서 random 랜 덤 함 수 를 사용 하여 이미 작 성 된 브 라 우 저 형식의 User-agent 정 보 를 자동 으로 가 져 옵 니 다.사용자 정의 함수 에 자신의 Host,Referer,GET 정보 등 을 써 서 이 몇 가지 문 제 를 해결 하면 403 방문 정보 가 나타 나 지 않 고 순조롭게 방문 할 수 있 습 니 다.
물론 방문 빈도 가 너무 빠 르 면 일부 사 이 트 는 걸 러 내 고 이 를 해결 하려 면 대리 IP 를 사용 하 는 방법 이 필요 합 니 다.구체 적 인 자체 해결
읽 어 주 셔 서 감사합니다. 여러분 에 게 도움 이 되 기 를 바 랍 니 다.본 사이트 에 대한 여러분 의 지지 에 감 사 드 립 니 다!

좋은 웹페이지 즐겨찾기