python 파충류 403 접근 금지 오류 상세 설명
Python 에서 파충 류 를 쓸 때 html.getcode()는 403 접근 금지 문제 에 부 딪 힐 수 있 습 니 다.이것 은 사이트 가 자동화 파충 류 를 금지 하 는 것 입 니 다.이 문 제 를 해결 하려 면 python 모듈 urllib 2 모듈 을 사용 해 야 합 니 다.
urllib 2 모듈 은 진급 하 는 파충류 잡기 모듈 로 매우 많은 방법 이 있 습 니 다.예 를 들 어 url=/www.jb51.net/qysh 123 을 연결 하면 403 접근 금지 문제 가 발생 할 수 있 습 니 다.
이 문 제 를 해결 하려 면 다음 과 같은 몇 가지 절차 가 필요 하 다.
<span style="font-size:18px;">req = urllib2.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","//www.jb51.net/")
그 중에서 User-agent 는 브 라 우 저 특유 의 속성 으로 브 라 우 저 를 통 해 소스 코드 를 보면 볼 수 있다.그리고
html=urllib2.urlopen(req)
print html.read()
403 접근 금지 문제 없 이 웹 코드 를 모두 다운로드 할 수 있다.상기 문제 에 대해 서 는 함수 로 포장 하여 나중에 사용 하기에 편리 하도록 제공 할 수 있 습 니 다.구체 적 인 코드 는:
#-*-coding:utf-8-*-
import urllib2
import random
url="//www.jb51.net/article/1.htm"
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
]
def get_content(url,headers):
'''''
@ 403
'''
randdom_header=random.choice(headers)
req=urllib2.Request(url)
req.add_header("User-Agent",randdom_header)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","//www.jb51.net/")
req.add_header("GET",url)
content=urllib2.urlopen(req).read()
return content
print get_content(url,my_headers)
그 중에서 random 랜 덤 함 수 를 사용 하여 이미 작 성 된 브 라 우 저 형식의 User-agent 정 보 를 자동 으로 가 져 옵 니 다.사용자 정의 함수 에 자신의 Host,Referer,GET 정보 등 을 써 서 이 몇 가지 문 제 를 해결 하면 403 방문 정보 가 나타 나 지 않 고 순조롭게 방문 할 수 있 습 니 다.물론 방문 빈도 가 너무 빠 르 면 일부 사 이 트 는 걸 러 내 고 이 를 해결 하려 면 대리 IP 를 사용 하 는 방법 이 필요 합 니 다.구체 적 인 자체 해결
읽 어 주 셔 서 감사합니다. 여러분 에 게 도움 이 되 기 를 바 랍 니 다.본 사이트 에 대한 여러분 의 지지 에 감 사 드 립 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.