Python 에서 HTML 탭 을 가 져 오 거나 걸 러 내 거나 바 꾸 는 방법

3842 단어

본 논문 의 사례 는 Python 이 정규 표현 식 을 통 해 얻 거나 제거 (여과) 하거나 HTML 탭 을 교체 하 는 몇 가지 방법 을 소개 하 였 으 며, 구체 적 인 내용 은 다음 과 같다.
python 정규 표현 식 핵심 내용:
python 정규 표현 식 전의 부호:


.              
\w               
\s         
\d     
\b           
^         
$         
\W         ，  ，   ，     
\S             
\D           
\B               
[^x]     x       
[^aeiou]     aeiou

자주 사용 하 는 python 정규 표현 식 한정 부호 / 문법 설명:


*        
+        
?       
{n}  n 
{n,}  n     
{n,m}  n m

python 정규 표현 식 이름 그룹:


   :(?P.....)
            (     ,     '

Python 은 정규 표현 식 을 통 해 HTML 태그 코드 를 가 져 오 거나 제거 하거나 교체 합 니 다. 예 를 들 어
1. Python 은 정규 표현 식 을 통 해 html 의 날씨 정보 코드 예제 를 추출 합 니 다.


#!/usr/bin/env python 
#-*- coding: utf8 -*- 
import re 
  
html = """ 
     
""" 
  
if __name__ == '__main__': 
  p = re.compile(']+>') 
  print p.sub("", html)
Python        html         :
#!/usr/bin/env python 
#-*- coding: utf8 -*- 
import re 
  
html = """ 
   14℃  
""" 
  
if __name__ == '__main__': 
  p = re.compile(']+>') 
  print p.sub("", html)

2. Python 은 정규 표현 식 을 통 해 HTML 태그 예제 코드 를 제거 합 니 다.


# -*- coding: utf-8-*-
import re
##  HTML    
# HTML        
#@param htmlstr HTML   .
def filter_tags(htmlstr):
  #   CDATA
  re_cdata=re.compile('//]*//\]\]>',re.I) #  CDATA
  re_script=re.compile(']*>[^',re.I)#Script
  re_style=re.compile(']*>[^',re.I)#style
  re_br=re.compile('
')#    
  re_h=re.compile('?\w+[^>]*>')#HTML  
  re_comment=re.compile('')#HTML  
  s=re_cdata.sub('',htmlstr)#  CDATA
  s=re_script.sub('',s) #  SCRIPT
  s=re_style.sub('',s)#  style
  s=re_br.sub('
',s)# br     
  s=re_h.sub('',s) #  HTML   
  s=re_comment.sub('',s)#  HTML  
  #       
  blank_line=re.compile('
+')
  s=blank_line.sub('
',s)
  s=replaceCharEntity(s)#    
  return s
##    HTML    .
#         HTML        .
#            CHAR_ENTITIES ,    HTML    .
#@param htmlstr HTML   .
def replaceCharEntity(htmlstr):
  CHAR_ENTITIES={'nbsp':' ','160':' ',
        'lt':'','62':'>',
        'amp':'&','38':'&',
        'quot':'"','34':'"',}
   
  re_charEntity=re.compile(r'?(?P\w+);')
  sz=re_charEntity.search(htmlstr)
  while sz:
    entity=sz.group()#entity  ， >
    key=sz.group('name')#  &; entity, > gt
    try:
      htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
      sz=re_charEntity.search(htmlstr)
    except KeyError:
      #     
      htmlstr=re_charEntity.sub('',htmlstr,1)
      sz=re_charEntity.search(htmlstr)
  return htmlstr
def repalce(s,re_exp,repl_string):
  return re_exp.sub(repl_string,s)
if __name__=='__main__':
  s=file('169it.com_index.htm').read()
  news=filter_tags(s)
  print news

이상 은 본문의 전체 내용 이 므 로 여러분 의 학습 에 도움 이 되 기 를 바 랍 니 다.

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

다양한 언어의 JSON

JSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다