파충류 의 수양 - 블 로그 편
7891 단어 파충
#user_agent
_header = ['Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30'
,'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0',
'Mozilla/5.0 (Windows; U; Windows NT 5.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12'];
def connectURL(self,page):
print " ....."
head = random.choice(self._header);
req = urllib2.Request(page);
req.add_header('User-Agent',self._header);
req.add_header('Host','blog.csdn.net');
req.add_header('Referer','http://blog.csdn.net/');
req.add_header('GET',page);
#
return urllib2.urlopen(req).read();
def parseTolist(self,info):
li = [];
reg = r'<span class="link_title"><a href="(/guolin_blog/article/details/[0-9]+)">([^v]*)(?=</a>)';
pat = re.compile(reg);#
Blog_Link = re.findall(pat,info);
#print Blog_Link;
for i in Blog_Link:
msg = i[1].replace("\r
","");
li.append(msg+':'+'http://blog.csdn.net'+i[0]);
return li;
def wisdomBug(self):
#
for k in range(1,self.pagecount):
page = self.url+str(k);
print ' :'+page;
#parese--
info = self.connectURL(page);
li = self.parseTolist(info);
#save --
for i in li:
f = open("D:\\python\\link.txt",'a');
f.write(i+os.linesep*2);
f.close();
소스 코드: https://github.com/aliencool/Python/blob/master/connect.py
잔소리:
만약 에 일부 사이트 의 동적 User - agent 를 사용 할 수 없다 면 더욱 고 급 스 러 운 '대리 IP' 로 사용 해 야 합 니 다. 사실은 Python 으로 파충 류 를 타면 많은 일 을 할 수 있 습 니 다. 예 를 들 어...
12306 차 표를 찾 아 보고 뉴스 기 사 를 올 라 갑 니 다. 제 이번 박문 은 개인 적 으로 입문 단계 일 뿐 입 니 다. 그리고 좋 은 파충류 프레임 워 크 는 더 많은 정 보 를 얻 을 수 있 고 효율 적 입 니 다 (다 중 스 레 드).
우리 가 함께 더 깊이 파고 들 어 더 좋 은 박문 을 제공 할 수 있 기 를 바란다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
(1) 분포 식 파충류 Scrapy 는 어떻게 해 야 하나 요 - 설치Scrapy 의 설치 에 대해 인터넷 을 샅 샅 이 뒤 졌 습 니 다. 하나씩 설치 하 는 것 은 솔직히 좀 번 거 롭 습 니 다. 그럼 원 키 로 설치 한 것 이 있 습 니까?답 은 분명히 있 습 니 다. 다음은 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.