sleep 간격 으로 python 파충류 의 인 스 턴 스 설명 을 진행 합 니 다.

3260 단어 sleeppython파충류
자 료 를 찾 을 때 잠시 사용 할 수 없 지만 내용 이 좋 은 웹 페이지 를 볼 수 있 습 니 다.이렇게 닫 으 면 낭비 되 고 다음 에 도 다시 검색 할 수 있 는 것 은 아 닙 니 다.일부 파트너 들 은 웹 링크 를 저장 할 수 있다 고 주장 하지만 이런 기본 적 인 방법 은 웹 페이지 가 열 리 지 않 은 후에 도 내용 을 볼 수 없다.우 리 는 파충류 로 이 방면 의 데 이 터 를 충분히 얻 을 수 있 지만,조작 과정 에서 약간의 방 해 를 만 날 수 있 습 니 다.오늘 은 작은 편집자 가 sleep 간격 으로 python 반 파충 류 를 하 는 것 을 가 르 칩 니 다.그러면 우리 가 생각 하 는 데 이 터 를 얻 을 수 있 습 니 다.
순서
headers 드래그 요청 을 이용 하여 브 라 우 저 로 웹 사 이 트 를 방문 하 는 것 을 모 의 하고 가장 간단 한 파충류 메커니즘 을 건 너 뛰 어야 합 니 다.
웹 페이지 내용 을 가 져 와 문자열 content 에 저장 합 니 다.
정규 표현 식 을 구성 하여 content 에서 키워드 pattern 과 일치 하여 다운로드 링크 를 가 져 옵 니 다.주의해 야 할 것 은 웹 페이지 의 키워드 가 두 번(아래 그림)나 타 났 기 때문에 우 리 는 set()함 수 를 이용 하여 중복 요 소 를 제거 해 야 합 니 다.
세 번 째 단 계 는 set 이후 의 결 과 를 옮 겨 다 니 며 링크 를 다운로드 하 는 것 입 니 다.
time.sleep(t)를 설정 하고 sleep 간격 이 없 으 면 사이트 에서 이러한 행 위 를 공격 이 라 고 인정 하기 때문에 우 리 는 일정 시간 간격 으로'반 파충류'를 다운로드 합 니 다.
구체 코드

import urllib.request# url request
import re      # regular expression
import os      # dirs
import time
'''
url     
pattern          
Directory     
def BatchDownload(url,pattern,Directory):
   
  #     ,           ->       
  headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
  opener = urllib.request.build_opener()
  opener.addheaders = [headers]
  #       
  content = opener.open(url).read().decode('utf8')
  #        , content      pattern
  raw_hrefs = re.findall(pattern, content, 0)
  # set        
  hset = set(raw_hrefs)
     
  #     
  for href in hset:
    #    if else                 
    if(len(hset)>1):
      link = url + href[0]
      filename = os.path.join(Directory, href[0])
      print("    ",filename)
      urllib.request.urlretrieve(link, filename)
      print("    !")
    else:
      link = url +href
      filename = os.path.join(Directory, href)
       
    #  sleep  ,           ,    
    time.sleep(1)
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#       '(Storm-Data-Export-Format.docx)',
#       'E:\stormevents\csvfiles')
     
#       '(Storm-Data-Export-Format.pdf)',
#       '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#       '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#       '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/',
#       '(ugc_areas.csv)',
#       'E:\stormevents\csvfiles\legacy')
결과 전시
모든 반전 과정 을 똑똑히 알 수 있 도록 아이디어 와 코드 를 나열 했다.그 중에서 time.sleep(t)는 사이트 가 파충류 에 대한 차단 문 제 를 해제 하고 중점적으로 표시 할 수 있다.

sleep 간격 으로 python 반 파충류 의 인 스 턴 스 를 설명 하 는 이 글 은 여기까지 입 니 다.sleep 간격 으로 python 반 파충류 의 콘 텐 츠 를 진행 하 는 방법 에 대해 서 는 예전 의 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 도 많이 지 켜 봐 주세요!

좋은 웹페이지 즐겨찾기