Python 3 --- 파충류 의 처리 데이터

6387 단어 Python3 ------파충

1. 정규 표현 식 re 를 통 해 데 이 터 를 처리 합 니 다.
정규 표현 식 규칙

from urllib import request,parse
import re

class Spider:
    def __init__(self):
        #         
        self.page = 1
        #     ，   True    
        self.switch = True
        pass

    def loadPage(self):
        """
                
        :return:
        """
        print("      .....")
        url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
        }
        req = request.Request(url,headers=headers)
        res = request.urlopen(req)
        html = res.read().decode('gbk')
        #print(html)

        pattern = re.compile('(.*?)

',re.S)
content_list = pattern.findall(html)
self.dealPage(content_list)
def dealPage(self,content_list):
"""
각 페이지 의 단락 을 처리 하 다
:return:
"""
for item in content_list:
item = item.replace("","").replace("","").replace("","").replace("","")
print ("데이터 기록 중...")
self.writePage(item)
def writePage(self,item):
"""
각 단락 을 하나하나 파일 에 기록 하 다.
:return:
"""
with open("duanzi.txt","a",encoding="gbk") as f:
f.write(item)
def startWork(self):
"""
파충류 의 운행 을 통제 하 다.
:return:
"""
while self.switch:
command = input ("계속 기어 오 르 면 차 로 돌아 가 십시오 (입력 quit 를 종료 합 니 다)")
if command == "quit":
self.switch = False
else:
self.loadPage()
self.page += 1
if __name__ == "__main__":
spider = Spider()
# spider.loadPage()
spider.startWork()

2. XPath 를 통 해 데 이 터 를 처리 합 니 다.

XPath 사용 상세 참조: XPath --- 용법 총화 정리

import os
from urllib import request,parse
from lxml import etree

class Spider:
    def __init__(self):
        self.tiebaName = input("        ：")
        self.beginPage = int(input("      ："))
        self.endPage = int(input("      ："))

        self.url = 'http://tieba.baidu.com/f'
        self.ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

        #     
        self.userName = 1

    def tiebaSpider(self):
        for page in range(self.beginPage, self.endPage + 1):
            pn = (page - 1) * 50 # page number
            word = {'pn' : pn, 'kw': self.tiebaName}

            word = request.urlencode(word) #   url    （   ）
            myUrl = self.url + "?" + word

            #   ：http://tieba.baidu.com/f? kw=%E7%BE%8E%E5%A5%B3 & pn=50
            #           load_Page
            #             ,
            links = self.loadPage(myUrl)  # urllib2_test3.py

    #       
    def loadPage(self, url):
        req = request.Request(url, headers = self.ua_header)
        html = request.urlopen(req).read()

        #   html   HTML   
        selector=etree.HTML(html)

        #            url     ，       
        # http://tieba.baidu.com/p/4884069807   “p/4884069807”
        links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

        # links     etreeElementString   
        #     ，           ，          loadImage
        for link in links:
            link = "http://tieba.baidu.com" + link
            self.loadImages(link)

    #     
    def loadImages(self, link):
        req = request.Request(link, headers = self.ua_header)
        html = request.urlopen(req).read()

        selector = etree.HTML(html)

        #             src  
        imagesLinks = selector.xpath('//img[@class="BDE_Image"]/@src')

        #         ，    
        for imagesLink in imagesLinks:
            self.writeImages(imagesLink)

    #       
    def writeImages(self, imagesLink):
        '''
              images            userNname    
        '''

        print(imagesLink)
        print("       %d ..." % self.userName)
        # 1.     ，        
        file = open('./images/' + str(self.userName)  + '.png', 'wb')

        # 2.         
        images = request.urlopen(imagesLink).read()

        # 3.       write()   ， page_html         
        file.write(images)

        # 4.       
        file.close()

        #      1
        self.userName += 1

#    main   
if __name__ == "__main__":

    #         
    mySpider = Spider()
    #          ，    
    mySpider.tiebaSpider()

3. BeautifulSoup 4 를 통 해 데 이 터 를 처리 합 니 다.

BeautifulSoup 4 사용 설명: Python 3 --- BeautifulSoup 4 용법 요약

from bs4 import BeautifulSoup
from urllib import request
import json    #    json    

def tencent():
    url = 'http://hr.tencent.com/'
    req = request.Request(url + 'position.php?&start=10#a')
    response =request.urlopen(req)
    resHtml = response.read()

    output =open('tencent.json','w')

    html = BeautifulSoup(resHtml,'lxml')

    #   CSS   
    result = html.select('tr[class="even"]')
    result2 = html.select('tr[class="odd"]')
    result += result2

    items = []
    for site in result:
        item = {}

        name = site.select('td a')[0].get_text()
        detailLink = site.select('td a')[0].attrs['href']
        catalog = site.select('td')[1].get_text()
        recruitNumber = site.select('td')[2].get_text()
        workLocation = site.select('td')[3].get_text()
        publishTime = site.select('td')[4].get_text()

        item['name'] = name
        item['detailLink'] = url + detailLink
        item['catalog'] = catalog
        item['recruitNumber'] = recruitNumber
        item['publishTime'] = publishTime

        items.append(item)

    #   ascii  ， utf-8  
    line = json.dumps(items,ensure_ascii=False)

    output.write(line)
    output.close()

if __name__ == "__main__":
   tencent()

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

#2_Raspberry Pi 3B+에서 LINE에 일기 예보 알림

도쿄에 와서 갑자기 비가 오는 경우가 많습니다. "아침 제대로 일기 예보를 체크해 두면..."라고 후회하는 것이 자주. LINE에 매일 아침 일기 예보를 보내 주시면 좋지 않아? 라고 생각하고 만들어 보기로 했습니다...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

docker 용기 조작 명령 docker ps, inspect, top,attach,event,logs,prot

Qt 정규 표현 식 검증 메 일 박스 형식 예시 코드

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다