파 이 썬 파충류 학습


download https://www.python.org/downloads/release/python-352/
python 간단 한 파충류 기능 구현http://www.cnblogs.com/fnng/p/3576154.html
api-ms-win-crt-runtimel 1-1-0 dll 부족 에 대한 해결 방안https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145
can't use a string pattern on a bytes-like object imglist = re.findall(imgre,html.decode('GBK'))
inconsistent use of tabs and space in indentation 탭 을 빈 칸 으로 바 꿉 니 다.
UnicodeDecodeError:'gbk' codec can't decode byte 0xaf in position 197:illegal multibyte sequence html.decode('utf-8')
다음은 3.5.2 버 전의 python 에서 사용 할 수 있 는
#coding=utf-8
import urllib.request
import re

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    x = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'D://%s.jpg' % x)
        x+=1
    print(x)

 

html = getHtml("http://tieba.baidu.com/p/2460150866");

getImg(html)

 
웹 페이지 가 GBK 문자 집합 이 라면 charset=gbk 를 수정 해 야 합 니 다.
#coding=utf-8
import urllib.request
import re
import datetime,time

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'file="(.+?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('gbk'))
    x = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'D://06_Download//py//%s.jpg' % x)
        x+=1
    print("      ",x)


starttime= datetime.datetime.now()
html = getHtml("http://www.cmfish.com/bbs/forum.php?mod=viewthread&tid=306167&extra=page%3D1");
getImg(html)
usetime= datetime.datetime.now()-starttime
print('    :',usetime) 

좋은 웹페이지 즐겨찾기