Python 3.x 파충류 가 웹 페이지 그림 을 다운로드 하 는 실례 설명
이번 에는 pixabay 사진 사 이 트 를 선택 하 겠 습 니 다.
url=https://pixabay.com/
2.그림 오른쪽 단 추 를 선택 하여 보기 요 소 를 선택 하여 그림 링크 를 찾 는 규칙
여러 개의 그림 경 로 를 보면 src 경로 가 모두 포함 되 어 있 음 을 알 수 있 습 니 다.https://cdn.pixabay.com/photo/ 공공 부분 및 그림 형식 은.jpg 이 므 로 정규 표현 식 은?
re.compile(r'^https://cdn.pixabay.com/photo/.*?jpg$')
이상 의 분석 을 통 해 우 리 는 프로그램 을 쓰기 시작 할 수 있다.
#-*- coding:utf-8 -*-
import re
import requests
import os
from bs4 import BeautifulSoup
url = 'https://pixabay.com/'
html = requests.get(url).text #
print(html)
# , 5 。
#data-objurl="http://pic38.nipic.com/20140218/17995031_091821599000_2.jpg"
soup = BeautifulSoup(html,'html.parser',from_encoding='utf-8')
#^abc.*?qwe$
pic_url = soup.find_all('img',src=re.compile(r'^https://cdn.pixabay.com/photo/.*?jpg$'))
#pic_url = pic_node.get_text()
#pic_url = re.findall('"https://cdn.pixabay.com/photo/""(.*?)",',html,re.S)
print(pic_url)
i = 0
# image ,
if not os.path.exists('image'):
os.makedirs('image')
for url in pic_url:
img = url['src']
try:
pic = requests.get(img,timeout=5) # 5
except requests.exceptions.ConnectionError:
print(' ')
continue
file_name = "image/"+str(i)+".jpg" #
print(file_name)
#
fp = open(file_name,'wb')
fp.write(pic.content) #
fp.close()
i+=1
코드 가 간단 하지 않 습 니까?주 소 를 수정 하고 다른 사 이 트 를 오 르 려 면 다운로드 이미지 경로 의 공통점 을 분석 하고 합 리 적 인 정규 표현 식 을 디자인 하 십시오.그렇지 않 으 면 그림 경 로 를 얻 을 수 없습니다.실행 프로 세 스 캡 처:
이 파 이 썬 3.x 파충류 가 웹 페이지 사진 을 다운로드 한 사례 설명 은 바로 편집장 이 여러분 에 게 공유 한 모든 내용 입 니 다.참고 하 시 기 를 바 랍 니 다.여러분 들 도 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
(1) 분포 식 파충류 Scrapy 는 어떻게 해 야 하나 요 - 설치Scrapy 의 설치 에 대해 인터넷 을 샅 샅 이 뒤 졌 습 니 다. 하나씩 설치 하 는 것 은 솔직히 좀 번 거 롭 습 니 다. 그럼 원 키 로 설치 한 것 이 있 습 니까?답 은 분명히 있 습 니 다. 다음은 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.