sleep 간격 으로 python 파충류 의 인 스 턴 스 설명 을 진행 합 니 다.
순서
headers 드래그 요청 을 이용 하여 브 라 우 저 로 웹 사 이 트 를 방문 하 는 것 을 모 의 하고 가장 간단 한 파충류 메커니즘 을 건 너 뛰 어야 합 니 다.
웹 페이지 내용 을 가 져 와 문자열 content 에 저장 합 니 다.
정규 표현 식 을 구성 하여 content 에서 키워드 pattern 과 일치 하여 다운로드 링크 를 가 져 옵 니 다.주의해 야 할 것 은 웹 페이지 의 키워드 가 두 번(아래 그림)나 타 났 기 때문에 우 리 는 set()함 수 를 이용 하여 중복 요 소 를 제거 해 야 합 니 다.
세 번 째 단 계 는 set 이후 의 결 과 를 옮 겨 다 니 며 링크 를 다운로드 하 는 것 입 니 다.
time.sleep(t)를 설정 하고 sleep 간격 이 없 으 면 사이트 에서 이러한 행 위 를 공격 이 라 고 인정 하기 때문에 우 리 는 일정 시간 간격 으로'반 파충류'를 다운로드 합 니 다.
구체 코드
import urllib.request# url request
import re # regular expression
import os # dirs
import time
'''
url
pattern
Directory
def BatchDownload(url,pattern,Directory):
# , ->
headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
#
content = opener.open(url).read().decode('utf8')
# , content pattern
raw_hrefs = re.findall(pattern, content, 0)
# set
hset = set(raw_hrefs)
#
for href in hset:
# if else
if(len(hset)>1):
link = url + href[0]
filename = os.path.join(Directory, href[0])
print(" ",filename)
urllib.request.urlretrieve(link, filename)
print(" !")
else:
link = url +href
filename = os.path.join(Directory, href)
# sleep , ,
time.sleep(1)
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
# '(Storm-Data-Export-Format.docx)',
# 'E:\stormevents\csvfiles')
# '(Storm-Data-Export-Format.pdf)',
# '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
# '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
# '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/',
# '(ugc_areas.csv)',
# 'E:\stormevents\csvfiles\legacy')
결과 전시모든 반전 과정 을 똑똑히 알 수 있 도록 아이디어 와 코드 를 나열 했다.그 중에서 time.sleep(t)는 사이트 가 파충류 에 대한 차단 문 제 를 해제 하고 중점적으로 표시 할 수 있다.
sleep 간격 으로 python 반 파충류 의 인 스 턴 스 를 설명 하 는 이 글 은 여기까지 입 니 다.sleep 간격 으로 python 반 파충류 의 콘 텐 츠 를 진행 하 는 방법 에 대해 서 는 예전 의 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 도 많이 지 켜 봐 주세요!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
GNU CoreUtils의 sleep은 infinity에서 지정할 수 있음이걸 찾았으니까 진짜가 아닐까 생각하면서 소스를 찾아봤어요.일단 조사하기 전에. 확실히 의도가 있었다. 과inf둘을 지정할 수 있을 것 같습니다.Core Utils의 출처를 적당히 검색하려면Giit Hub에서 검색해...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.