python 파충류의 IP 에이전트 사용
8611 단어 파충류
맞다https://www.xicidaili.com/nn/3사이트에서 고주파 요청 발송을 진행하여 본 기기의 IP를 금지하고 에이전트 메커니즘을 사용하여 해제하도록 합니다
from lxml import etree
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
new_url = format(url%page)
page_text = requests.get(url=new_url,headers=headers).text
tree = etree.HTML(page_text)
# xpath tbody ,
tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
for tr in tr_list:
ip_addr = tr.xpath('./td[2]/text()')[0]
all_data.append(ip_addr)
print(len(all_data))
맞다https://www.xicidaili.com/nn/3사이트에서 고주파 요청 발송을 진행하여 본 기기의 IP를 금지하고 에이전트 메커니즘을 사용하여 해제하도록 합니다
#1.
ips_list = []
# url ip API
url = 'http://t.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=52&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
for ip in ip_list:
dic = {'https':ip}
ips_list.append(dic)
ips_list
프록시={'http':'ip:port'} 형식으로 프록시 ip를 헤더에 쓴 후
import random
#
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
new_url = format(url%page)
page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(ips_list)).text
tree = etree.HTML(page_text)
# xpath tbody ,
tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
for tr in tr_list:
ip_addr = tr.xpath('./td[2]/text()')[0]
all_data.append(ip_addr)
print(len(all_data))
이렇게 하면 성공적으로 대리를 사용할 수 있다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
python은 어떻게 파충류의 효율을 향상시킬 것인가단일 스레드 + 멀티태스킹 비동기 협동 협정 함수(특수 함수)를 정의할 때 async 수식을 사용합니다. 함수 호출 후 내부 문장은 즉시 실행되지 않고 협동 대상으로 되돌아옵니다. 퀘스트 대상 작업 대상 = 고급 협...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.