Python 3 정규 표현 식 을 사용 하여 내포 단락 의 예 시 를 추출 합 니 다.

본 고의 실례 는 Python 3 이 정규 표현 식 을 사용 하여 내포 단락 을 기어 오 르 는 방법 을 설명 하 였 다.여러분 께 참고 하도록 공유 하 겠 습 니 다.구체 적 으로 는 다음 과 같 습 니 다.
정칙 은 파충류 에 널리 쓰 이지 않 는 것 같 지만 기본 기 는 우리 가 파악 해 야 한다.
먼저 내포 단락 웹 페이지 를 내 려 놓 은 다음 정규 로 일치 시 키 고 일치 하 는 단락 을 텍스트 문서 에 기록 합 니 다.코드 는 다음 과 같 습 니 다:

# -*- coding:utf-8 -*-
from urllib import request as urllib2
import re
#              
url = r'http://www.neihanpa.com/article/list_5_{}.html'
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
}
file_name = '    .txt'
for page in range(2):
# 2    ,      
  fullurl = url.format(str(page+1))
  request = urllib2.Request(url=fullurl, headers=headers)
  response = urllib2.urlopen(request)
  html = response.read().decode('gbk')
  # re.S     re.S                   ,            
  #     re.S                    
  pattern = re.compile(r'<div\sclass="f18 mb20">(.*?)</div>',re.S)
  duanzis = pattern.findall(html)
  for duanzi in duanzis:
    duanzi = duanzi.replace('<p>','').replace('</p>','').replace('<br />','
').replace('&ldquo;','').replace('&rdquo','').replace('&hellip;','') try: # file = open(file_name,'a',encoding='utf-8') file.write('
'.join(duanzi.split())) file.close() except OSError as e: print(e)
실행 후 다음 그림 과 같은 파일 생 성:

PS:여기 서 여러분 께 매우 편리 한 정규 표현 식 도구 2 가 지 를 제공 합 니 다.참고 하 시기 바 랍 니 다.
JavaScript 정규 표현 식 온라인 테스트 도구:
http://tools.jb51.net/regex/javascript
정규 표현 식 온라인 생 성 도구:
http://tools.jb51.net/regex/create_reg
더 많은 파 이 썬 관련 내용 은 본 사이트 의 주 제 를 볼 수 있 습 니 다.
본 논문 에서 말 한 것 이 여러분 의 Python 프로 그래 밍 에 도움 이 되 기 를 바 랍 니 다.

좋은 웹페이지 즐겨찾기