Python 으로 블 로그 내 보 내기 도 구 를 작성 합 니 다.
353257 단어 python
나 조 휘 (罗 朝 光)http://kesalin.github.io/)
CC 허가, 전재 출처 밝 혀 주세요.
앞 에 쓰 면...
나 는 github 에서 octopress 로 개인 블 로 그 를 만 들 었 고, octopress 는 Markdown 문법 으로 박문 을 만 들 었 다.전에 저 는 CSDN 블 로그 에 도 기술 박문 을 많이 썼 습 니 다. 제 아이 가 아무리 못 생 겨 도 보배 라 고 해서 CSDN 블 로그 에 있 는 글 을 개인 블 로그 에 내 보 내 겠 다 는 생각 이 들 었 습 니 다.처음에 CSDN 블 로 그 를 xml 또는 텍스트 로 내 보 낸 다음 xml 또는 텍스트 를 Markdown 블 로그 로 변환 하 는 도 구 를 찾 으 려 고 했 습 니 다.안 타 깝 게 도 기 존 블 로그 내 보 내기 도 구 를 찾 아 보 았 습 니 다. 대부분 비용 을 받 아야 모든 블 로 그 를 xml 형식 으로 내 보 낼 수 있 기 때문에 바퀴 를 발명 할 수 밖 에 없 었 습 니 다. 도 구 를 써 서 모든 블 로 그 를 Markdown 블 로 그 를 내 보 낼 수 있 습 니 다.
저 는 이 도구 의 작성 과정 을 상세 하 게 소개 할 것 입 니 다. 프로 그래 밍 을 배 운 적 이 없 는 사람들 도 간단 한 Python 문법 을 배 워 서 이 스 크 립 트 도 구 를 수정 하여 다른 유형의 블 로 그 를 텍스트 형식 으로 내 보 낼 수 있 기 를 바 랍 니 다.이것 도 제 가 처음으로 Python 을 배우 고 사용 한 것 이기 때문에 저 를 믿 으 세 요. 당신 도 자신의 블 로 그 를 원 하 는 텍스트 형식 으로 내 보 낼 수 있 을 것 입 니 다.
본문 소스 코드 는 여기 있 습 니 다: ExportCSDNblog. py
대부분의 비 프로그래머 들 이 윈도 시스템 을 사용 하 는 것 을 감안 하여 윈도 에서 이 도 구 를 어떻게 만 드 는 지 소개 한다.
다운로드 도구
Windows 에 Python 개발 환경 을 설치 합 니 다 (Linux / mac 에서 pip 로 해당 패 키 지 를 설치 하면 됩 니 다. 프로그래머 가 직접 해결 합 니 다).
Python 2.7.3 이 버 전 을 설치 하 십시오. 더 높 은 버 전의 Python 은 일부 라 이브 러 리 와 호 환 되 지 않 습 니 다.다운로드 페이지 다운로드 가 완료 되면 실행 가능 한 파일 을 더 블 클릭 하여 설치 합 니 다. 기본 값 은 C: \ Python 2.7 에 설치 되 어 있 습 니 다.
육 다운로드 페이지 다운로드 가 완료 되 었 습 니 다. C: \ Python 2.7 \ \ six - 1.8.0 디 렉 터 리 와 같은 Python 설치 디 렉 터 리 에 압축 을 풀 었 습 니 다.
BeautifulSoup 4.3.2 다운로드 페이지, 다운로드 가 완료 되 었 습 니 다. 예 를 들 어 C: \ Python 2.7 \ \ BeautifulSoup 디 렉 터 리 에 압축 을 풀 었 습 니 다.
html 5lib 다운로드 페이지 다운로드 가 완료 되 었 습 니 다. 예 를 들 어 C: \ Python 2.7 \ \ html5lib - 0.999 디 렉 터 리 에 압축 을 풀 었 습 니 다.
설치 도구
Windows 에서 명령 행 을 시작 하고 다음 디 렉 터 리 에 차례대로 들 어가 setup. py install 을 실행 하여 설치 합 니 다.
C:\Python2.7\six-1.8.0>setup.py install
C:\Python2.7\html5lib-0.999>setup.py install
C:\Python2.7\BeautifulSoup>setup.py install
참고 문서
Python 2. X 문서 BeautifulSoup 문서 정규 표현 식 문서 정규 표현 식 온라인 테스트
파 이 썬 문법
이 도 구 는 기본 적 인 Python 문법 만 사 용 했 습 니 다. Python 기반 이 없다 면 다음 과 같은 박문 을 조금 알 아 보 는 것 이 좋 습 니 다.
string: 문자열 조작, python: string 의 조작 함수 참조 list: 목록 작업, Python list 작업 참조 dictionary: 사전 작업, Python 에서 dict 상세 설명 참조 datetime: 날짜 시간, python datetime 처리 시간 참조 블 로그 내 보 내기 도구 작성
분석 하 다.
먼저 이러한 도구 의 수 요 를 분석 합 니 다.
CSDN Markdown 。
이 총 수 요 는 사실 두 단계 로 나 누 어 할 수 있다.
* CSDN
* Markdown
첫 번 째 단계: 블 로그 글 을 어떻게 얻 습 니까?
모든 CSDN 블 로 그 를 열 면 아래 페이지 내 비게 이 션 에 'XXX 개의 데 이 터 는 모두 XXX 페이지 1.23... 끝 페이지' 가 표시 되 어 있 는 것 을 볼 수 있 습 니 다. 우 리 는 이곳 에서 부터 고려 할 수 있 습 니 다.모든 페이지 에 이 페이지 에 속 하 는 글 제목 과 글 링크 가 표 시 됩 니 다. 이 페이지 링크 를 차례대로 방문 하면 각 페이지 링크 에서 이 페이지 에 속 하 는 글 제목 과 글 링크 를 찾 을 수 있 습 니 다.이렇게 하면 모든 글 제목 과 글 링크 를 얻 을 수 있 습 니 다. 이 글 링크 가 있 으 면 우 리 는 해당 글 의 html 내용 을 얻 을 수 있 습 니 다. 그리고 이 html 페이지 를 분석 하여 해당 Markdown 텍스트 를 생 성 할 수 있 습 니 다.
이루어지다
위의 분석 을 통 해 알 수 있 듯 이 먼저 우 리 는 첫 페이지 에 따라 모든 페이지 링크 를 얻 은 다음 에 모든 페이지 링크 를 옮 겨 다 니 며 글 링크 를 가 져 와 야 한다.
페이지 링크 가 져 오 는 코드:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
def getPageUrlList(url): # url request = urllib2.Request(url, None, header) response = urllib2.urlopen(request) data = response.read() #print data soup = BeautifulSoup(data) lastArticleHref = None pageListDocs = soup.find_all(id="papelist") for pageList in pageListDocs: hrefDocs = pageList.find_all("a") if len(hrefDocs) > 0: lastArticleHrefDoc = hrefDocs[len(hrefDocs) - 1] lastArticleHref = lastArticleHrefDoc["href"].encode('UTF-8') if lastArticleHref == None: return [] #print " > last page href:" + lastArticleHref lastPageIndex = lastArticleHref.rfind("/") lastPageNum = int(lastArticleHref[lastPageIndex+1:]) urlInfo = "http://blog.csdn.net" + lastArticleHref[0:lastPageIndex] pageUrlList = [] for x in xrange(1, lastPageNum + 1): pageUrl = urlInfo + "/" + str(x) pageUrlList.append(pageUrl) log(" > page " + str(x) + ": " + pageUrl) log("total pages: " + str(len(pageUrlList)) + "
") return pageUrlList
인자 url = "http://blog.csdn.net/'+ username, 즉 홈 페이지 의 주소 입 니 다.urllib 2 라 이브 러 리 를 통 해 이 url 을 열 어 웹 요청 을 합 니 다. response 에서 돌아 온 html 페이지 내용 을 data 에 저장 합 니 다.어떤 내용 을 되 돌 렸 는 지 설명 되 어 있 는 print data 를 볼 수 있 습 니 다.
html 페이지 내용 이 있 으 면 BeautifulSoup 으로 해석 합 니 다.Beautiful Soup 은 우리 의 업 무량 을 크게 줄 였 다.나 는 여기에서 그것 의 사용 을 상세 하 게 소개 할 것 이 며, 뒤에 유사 한 해석 이 다시 나타 나 면 생략 할 것 이다.soup.find_all (id = "papelist") 은 html 페이지 의 모든 id = "papelist" 의 tag 를 찾 은 다음 이 tag 를 포함 하 는 list 를 되 돌려 줍 니 다.CSDN 블 로그 페이지 에 대응 하여 한 곳 만 있 습 니 다.
1
2
3
4
5
6
7
8
9
10
11
<div id="papelist" class="pagelist"> <span> 236 12 </span> <strong>1</strong> <a href="/kesalin/article/list/2">2</a> <a href="/kesalin/article/list/3">3</a> <a href="/kesalin/article/list/4">4</a> <a href="/kesalin/article/list/5">5</a> <a href="/kesalin/article/list/6">...</a> <a href="/kesalin/article/list/2"> </a> <a href="/kesalin/article/list/12"> </a> </div>
자, papelist 의 tag 대상 을 얻 었 습 니 다. 이 tag 대상 을 통 해 우 리 는 끝 페이지 tag a 대상 을 찾 을 수 있 습 니 다. 이 tag a 에서 해당 하 는 href 속성 을 분석 하고 끝 페이지 의 번호 12 를 얻 은 다음 에 모든 page 페이지 의 방문 url 을 맞 춰 서 pageUrlList 에 저장 합 니 다.page 페이지 의 방문 url 형식 예 는 다음 과 같다.
> page 1: http://blog.csdn.net/kesalin/article/list/1
페이지 에 따라 글 링크 를 가 져 오 는 코드:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
def getArticleList(url): # url/title pageUrlList = getPageUrlList(url) articleListDocs = [] strPage = " > parsing page {0}" pageNum = 0 global gRetryCount for pageUrl in pageUrlList: retryCount = 0 pageNum = pageNum + 1 pageNumStr = strPage.format(pageNum) print pageNumStr while retryCount <= gRetryCount: try: retryCount = retryCount + 1 time.sleep(1.0) # request = urllib2.Request(pageUrl, None, header) response = urllib2.urlopen(request) data = response.read().decode('UTF-8') #print data soup = BeautifulSoup(data) topArticleDocs = soup.find_all(id="article_toplist") articleDocs = soup.find_all(id="article_list") articleListDocs = articleListDocs + topArticleDocs + articleDocs break except Exception, e: print "getArticleList exception:%s, url:%s, retry count:%d" % (e, pageUrl, retryCount) pass artices = [] topTile = "[ ]" for articleListDoc in articleListDocs: linkDocs = articleListDoc.find_all("span", "link_title") for linkDoc in linkDocs: #print linkDoc.prettify().encode('UTF-8') link = linkDoc.a url = link["href"].encode('UTF-8') title = link.get_text().encode('UTF-8') title = title.replace(topTile, '').strip() oneHref = "http://blog.csdn.net" + url #log(" > title:" + title + ", url:" + oneHref) artices.append([oneHref, title]) log("total articles: " + str(len(artices)) + "
") return artices
첫 번 째 단계 에서 모든 page 링크 를 얻어 pageUrlList 에 저장 한 다음 이 page 페이지 에 따라 해당 page 의 article 링크 와 제목 을 가 져 옵 니 다.핵심 코드 는 다음 세 줄 입 니 다.
topArticleDocs = soup.find_all(id="article_toplist")
articleDocs = soup.find_all(id="article_list")
articleListDocs = articleListDocs + topArticleDocs + articleDocs
페이지 의 html 내용 에서 위 에 있 는 글 (article toplist) 과 일반적인 글 (article list) 의 tag 대상 을 찾 아 article ListDocs 에 저장 합 니 다.
article_toplist 예제: (article list 의 형식 은 유사 합 니 다)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<div id="article_toplist" class="list"> <div class="list_item article_item"> <div class="article_title"> <span class="ico ico_type_Original"></span> <h1> <span class="link_title"> <a href="/kesalin/article/details/10474007"> <font color="red">[ ]</font> : Android ? </a> </span> </h1> </div> ... ... </div> ... ... </div>
그리고 articleListDocs 에 저 장 된 모든 tag 대상 을 옮 겨 다 니 며 링크 를 해석 합 니 다.title 의 span tag 대상 을 linkDocs 에 저장 합 니 다.그 다음 에 링크 의 url 과 제목 을 분석 하고 위 에 있 는 글 제목 의 '위 에 있 는' 두 글 자 를 제거 합 니 다.마지막 으로 url 과 제목 을 artices 목록 에 저장 하고 되 돌려 줍 니 다.artices 목록 의 모든 내용 예제:
title: 모집: Android 와 대등한 운영 체제 에 관심 이 있 습 니까?url:http://blog.csdn.net/kesalin/article/details/10474007
글 링크 에 따라 글 html 내용 을 가 져 오고 Markdown 텍스트 로 해석
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
def download(url, output): # , markdown log(" >> download: " + url) data = None title = "" categories = "" content = "" postDate = datetime.datetime.now() global gRetryCount count = 0 while True: if count >= gRetryCount: break count = count + 1 try: time.sleep(2.0) # request = urllib2.Request(url, None, header) response = urllib2.urlopen(request) data = response.read().decode('UTF-8') break except Exception,e: exstr = traceback.format_exc() log(" >> failed to download " + url + ", retry: " + str(count) + ", error:" + exstr) pass if data == None: log(" >> failed to download " + url) return #print data soup = BeautifulSoup(data) topTile = "[ ]" titleDocs = soup.find_all("div", "article_title") for titleDoc in titleDocs: titleStr = titleDoc.a.get_text().encode('UTF-8') title = titleStr.replace(topTile, '').strip() #log(" >> title: " + title) manageDocs = soup.find_all("div", "article_manage") for managerDoc in manageDocs: categoryDoc = managerDoc.find_all("span", "link_categories") if len(categoryDoc) > 0: categories = categoryDoc[0].a.get_text().encode('UTF-8').strip() postDateDoc = managerDoc.find_all("span", "link_postdate") if len(postDateDoc) > 0: postDateStr = postDateDoc[0].string.encode('UTF-8').strip() postDate = datetime.datetime.strptime(postDateStr, '%Y-%m-%d %H:%M') contentDocs = soup.find_all(id="article_content") for contentDoc in contentDocs: htmlContent = contentDoc.prettify().encode('UTF-8') content = htmlContent2String(htmlContent) exportToMarkdown(output, postDate, categories, title, content)
앞의 분석 과 유사 합 니 다. 여기 서 구체 적 인 글 페이지 를 방문 하여 html 내용 을 얻 고 그 중에서 글 제목, 분류, 발표 시간, 글 내용 정 보 를 분석 합 니 다.그리고 이 내용 을 함수 exportToMarkdown 에 전달 하여 해당 하 는 Markdown 텍스트 파일 을 생 성 합 니 다.특히 글 내용 정 보 를 분석 할 때 html 문서 내용 에 특수 한 태그 나 전의 기호 가 있 기 때문에 특수 처 리 를 해 야 합 니 다. 이러한 특수 처 리 는 함수 html Content2String 에서 이 루어 집 니 다.현재 모든 텍스트 내용, 그림, url 링크 와 표 만 내 보 냈 을 뿐 처리 되 지 않 았 습 니 다. 나중에 저 는 이러한 전환 을 최대한 보완 하 겠 습 니 다.
1
2
3
4
5
6
7
8
9
10
def htmlContent2String(contentStr): patternImg = re.compile(r'(<img.+?src=")(.+?)(".+ />)') patternHref = re.compile(r'(<a.+?href=")(.+?)(".+?>)(.+?)(</a>)') patternRemoveHtml = re.compile(r'</?[^>]+>') resultContent = patternImg.sub(r'![image_mark](\2)', contentStr) resultContent = patternHref.sub(r'[\4](\2)', resultContent) resultContent = re.sub(patternRemoveHtml, r'', resultContent) resultContent = decodeHtmlSpecialCharacter(resultContent) return resultContent
현재 html 탭 을 모두 삭제 하고 함수 decodeHtml SpecialCharacter 에서 전의 문 자 를 변환 합 니 다.
마크 다운 텍스트 파일 생 성
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
def exportToMarkdown(exportDir, postdate, categories, title, content): titleDate = postdate.strftime('%Y-%m-%d') contentDate = postdate.strftime('%Y-%m-%d %H:%M:%S %z') filename = titleDate + '-' + title filename = repalceInvalidCharInFilename(filename) filepath = exportDir + '/' + filename + '.markdown' log(" >> save as " + filename) newFile = open(unicode(filepath, "utf8"), 'w') newFile.write('---' + '
') newFile.write('layout: post' + '
') newFile.write('title: \"' + title + '\"
') newFile.write('date: ' + contentDate + '
') newFile.write('comments: true' + '
') newFile.write('categories: [' + categories + ']' + '
') newFile.write('tags: [' + categories + ']' + '
') newFile.write('description: \"' + title + '\"
') newFile.write('keywords: ' + categories + '
') newFile.write('---' + '
') newFile.write(content) newFile.write('
') newFile.close()
Markdown 텍스트 파일 을 만 드 는 것 은 간단 합 니 다. 여기 서 github page 에서 사용 하 는 Markdown 박문 형식 을 생 성 해 야 하기 때문에 내용 이 이 렇 습 니 다. 필요 에 따라 다른 형식의 텍스트 내용 으로 수정 할 수 있 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.