파 이 썬 파충류 학습
download https://www.python.org/downloads/release/python-352/
python 간단 한 파충류 기능 구현http://www.cnblogs.com/fnng/p/3576154.html
api-ms-win-crt-runtimel 1-1-0 dll 부족 에 대한 해결 방안https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145
can't use a string pattern on a bytes-like object imglist = re.findall(imgre,html.decode('GBK'))
inconsistent use of tabs and space in indentation 탭 을 빈 칸 으로 바 꿉 니 다.
UnicodeDecodeError:'gbk' codec can't decode byte 0xaf in position 197:illegal multibyte sequence html.decode('utf-8')
다음은 3.5.2 버 전의 python 에서 사용 할 수 있 는
#coding=utf-8
import urllib.request
import re
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html.decode('utf-8'))
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'D://%s.jpg' % x)
x+=1
print(x)
html = getHtml("http://tieba.baidu.com/p/2460150866");
getImg(html)
웹 페이지 가 GBK 문자 집합 이 라면 charset=gbk 를 수정 해 야 합 니 다.
#coding=utf-8
import urllib.request
import re
import datetime,time
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'file="(.+?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html.decode('gbk'))
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'D://06_Download//py//%s.jpg' % x)
x+=1
print(" ",x)
starttime= datetime.datetime.now()
html = getHtml("http://www.cmfish.com/bbs/forum.php?mod=viewthread&tid=306167&extra=page%3D1");
getImg(html)
usetime= datetime.datetime.now()-starttime
print(' :',usetime)
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.