python 파충류의 IP 에이전트 사용

8611 단어 파충류
개념: 프록시 서버 프록시 서버의 역할fiddler는 전형적인 프록시 서버의 패키지 도구입니다.프록시 서버는 요청과 응답을 전달하는 데 쓰인다.프록시 서버가 요청을 전송하여 요청의 원본 IP 주소를 바꿀 수 있습니다.대리와 파충류 사이의 연관?파충류 프로그램은 짧은 시간 내에 지정된 서버에 고주파 요청을 할 수 있습니다.서버 쪽에서 이 고주파 요청의 IP를 금지합니다.프록시의 익명도 투명: 상대방 서버는 프록시를 사용한 것도 알고 당신의 실제 IP 익명도 알고 있습니다. 프록시를 사용한 것도 알고 있습니다. 하지만 당신의 진짜 IP 숨김을 알 수 없습니다. 프록시를 사용한 것도 모르고 당신의 진짜 IP 프록시 유형을 알 수 없습니다. http: http 프로토콜만 프록시할 수 있는 요청 https: 프록시 https 프로토콜의 요청은 어떻게 프록시 서버를 얻습니까?무료: 서사당 대리 거의 불가 빠른 대리 goubanjia 지불: 대리 정령:http://http.zhiliandaili.cn/
맞다https://www.xicidaili.com/nn/3사이트에서 고주파 요청 발송을 진행하여 본 기기의 IP를 금지하고 에이전트 메커니즘을 사용하여 해제하도록 합니다
from lxml import etree

url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
    new_url = format(url%page)
    page_text = requests.get(url=new_url,headers=headers).text
    tree = etree.HTML(page_text)
    # xpath tbody , 
    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
    for tr in tr_list:
        ip_addr = tr.xpath('./td[2]/text()')[0]
        all_data.append(ip_addr)
print(len(all_data))

맞다https://www.xicidaili.com/nn/3사이트에서 고주파 요청 발송을 진행하여 본 기기의 IP를 금지하고 에이전트 메커니즘을 사용하여 해제하도록 합니다
#1. 
ips_list = []
#  url ip API 
url = 'http://t.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=52&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
for ip in ip_list:
    dic = {'https':ip}
    ips_list.append(dic)
ips_list

프록시={'http':'ip:port'} 형식으로 프록시 ip를 헤더에 쓴 후
import random
# 
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
    new_url = format(url%page)
                                                   
    page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(ips_list)).text
    tree = etree.HTML(page_text)
    # xpath tbody , 
    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
    for tr in tr_list:
        ip_addr = tr.xpath('./td[2]/text()')[0]
        all_data.append(ip_addr)
print(len(all_data))

이렇게 하면 성공적으로 대리를 사용할 수 있다.

좋은 웹페이지 즐겨찾기