Python 에서 HTML 탭 을 가 져 오 거나 걸 러 내 거나 바 꾸 는 방법

3842 단어
본 논문 의 사례 는 Python 이 정규 표현 식 을 통 해 얻 거나 제거 (여과) 하거나 HTML 탭 을 교체 하 는 몇 가지 방법 을 소개 하 였 으 며, 구체 적 인 내용 은 다음 과 같다.
python 정규 표현 식 핵심 내용:
python 정규 표현 식 전의 부호:

.              
\w               
\s         
\d     
\b           
^         
$         
\W         ,  ,   ,     
\S             
\D           
\B               
[^x]     x       
[^aeiou]     aeiou            

자주 사용 하 는 python 정규 표현 식 한정 부호 / 문법 설명:

*        
+        
?       
{n}  n 
{n,}  n     
{n,m}  n m 

python 정규 표현 식 이름 그룹:

   :(?P.....)
            (     ,     ' 
 

Python 은 정규 표현 식 을 통 해 HTML 태그 코드 를 가 져 오 거나 제거 하거나 교체 합 니 다. 예 를 들 어
1. Python 은 정규 표현 식 을 통 해 html 의 날씨 정보 코드 예제 를 추출 합 니 다.

#!/usr/bin/env python 
#-*- coding: utf8 -*- 
import re 
  
html = """ 
  

""" if __name__ == '__main__': p = re.compile(']+>') print p.sub("", html) Python html : #!/usr/bin/env python #-*- coding: utf8 -*- import re html = """
14℃
""" if __name__ == '__main__': p = re.compile(']+>') print p.sub("", html)

2. Python 은 정규 표현 식 을 통 해 HTML 태그 예제 코드 를 제거 합 니 다.

# -*- coding: utf-8-*-
import re
##  HTML    
# HTML        
#@param htmlstr HTML   .
def filter_tags(htmlstr):
  #   CDATA
  re_cdata=re.compile('//]*//\]\]>',re.I) #  CDATA
  re_script=re.compile(']*>[^',re.I)#Script
  re_style=re.compile(']*>[^',re.I)#style
  re_br=re.compile('
')# re_h=re.compile('?\w+[^>]*>')#HTML re_comment=re.compile('')#HTML s=re_cdata.sub('',htmlstr)# CDATA s=re_script.sub('',s) # SCRIPT s=re_style.sub('',s)# style s=re_br.sub('
',s)# br s=re_h.sub('',s) # HTML s=re_comment.sub('',s)# HTML # blank_line=re.compile('
+') s=blank_line.sub('
',s) s=replaceCharEntity(s)# return s ## HTML . # HTML . # CHAR_ENTITIES , HTML . #@param htmlstr HTML . def replaceCharEntity(htmlstr): CHAR_ENTITIES={'nbsp':' ','160':' ', 'lt':'','62':'>', 'amp':'&','38':'&', 'quot':'"','34':'"',} re_charEntity=re.compile(r'?(?P\w+);') sz=re_charEntity.search(htmlstr) while sz: entity=sz.group()#entity , > key=sz.group('name')# &; entity, > gt try: htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1) sz=re_charEntity.search(htmlstr) except KeyError: # htmlstr=re_charEntity.sub('',htmlstr,1) sz=re_charEntity.search(htmlstr) return htmlstr def repalce(s,re_exp,repl_string): return re_exp.sub(repl_string,s) if __name__=='__main__': s=file('169it.com_index.htm').read() news=filter_tags(s) print news

이상 은 본문의 전체 내용 이 므 로 여러분 의 학습 에 도움 이 되 기 를 바 랍 니 다.

좋은 웹페이지 즐겨찾기