python 네트워크 파충 류 는 어떻게 반 파충 프로그램 을 탈출 하 는 방법 을 위장 합 니까?

1002 단어 python파충류
때때로 우 리 는 원래 잘 쓴 파충류 코드 를 이전에 도 Ok 을 실 행 했 는데 갑자기 잘못 보고 했다.
오류 보고 정 보 는 다음 과 같다.
Http 800 Internal internet error
대상 사이트 에 반 파충류 프로그램 이 설치 되 어 있 기 때문에 기 존 파충류 코드 를 사용 하면 거부 된다.
이전의 정상 적 인 파충류 코드 는 다음 과 같다.

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")
이 럴 때 는 우리 의 파충류 코드 를 위장 해 야 한다.
브 라 우 저 에서 온 요청 으로 헤더 추가
수 정 된 코드 는 다음 과 같 습 니 다.

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")
Ok,모든 것 이 해결 되 었 으 니 다시 올 라 갈 수 있 습 니 다.
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.

좋은 웹페이지 즐겨찾기