Python 에서 HTML 탭 을 가 져 오 거나 걸 러 내 거나 바 꾸 는 방법
python 정규 표현 식 핵심 내용:
python 정규 표현 식 전의 부호:
.
\w
\s
\d
\b
^
$
\W , , ,
\S
\D
\B
[^x] x
[^aeiou] aeiou
자주 사용 하 는 python 정규 표현 식 한정 부호 / 문법 설명:
*
+
?
{n} n
{n,} n
{n,m} n m
python 정규 표현 식 이름 그룹:
:(?P.....)
( , '
Python 은 정규 표현 식 을 통 해 HTML 태그 코드 를 가 져 오 거나 제거 하거나 교체 합 니 다. 예 를 들 어
1. Python 은 정규 표현 식 을 통 해 html 의 날씨 정보 코드 예제 를 추출 합 니 다.
#!/usr/bin/env python
#-*- coding: utf8 -*-
import re
html = """
"""
if __name__ == '__main__':
p = re.compile(']+>')
print p.sub("", html)
Python html :
#!/usr/bin/env python
#-*- coding: utf8 -*-
import re
html = """
14℃
"""
if __name__ == '__main__':
p = re.compile(']+>')
print p.sub("", html)
2. Python 은 정규 표현 식 을 통 해 HTML 태그 예제 코드 를 제거 합 니 다.
# -*- coding: utf-8-*-
import re
## HTML
# HTML
#@param htmlstr HTML .
def filter_tags(htmlstr):
# CDATA
re_cdata=re.compile('//]*//\]\]>',re.I) # CDATA
re_script=re.compile(']*>[^',re.I)#Script
re_style=re.compile(']*>[^',re.I)#style
re_br=re.compile('
')#
re_h=re.compile('?\w+[^>]*>')#HTML
re_comment=re.compile('')#HTML
s=re_cdata.sub('',htmlstr)# CDATA
s=re_script.sub('',s) # SCRIPT
s=re_style.sub('',s)# style
s=re_br.sub('
',s)# br
s=re_h.sub('',s) # HTML
s=re_comment.sub('',s)# HTML
#
blank_line=re.compile('
+')
s=blank_line.sub('
',s)
s=replaceCharEntity(s)#
return s
## HTML .
# HTML .
# CHAR_ENTITIES , HTML .
#@param htmlstr HTML .
def replaceCharEntity(htmlstr):
CHAR_ENTITIES={'nbsp':' ','160':' ',
'lt':'','62':'>',
'amp':'&','38':'&',
'quot':'"','34':'"',}
re_charEntity=re.compile(r'?(?P\w+);')
sz=re_charEntity.search(htmlstr)
while sz:
entity=sz.group()#entity , >
key=sz.group('name')# &; entity, > gt
try:
htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)
sz=re_charEntity.search(htmlstr)
except KeyError:
#
htmlstr=re_charEntity.sub('',htmlstr,1)
sz=re_charEntity.search(htmlstr)
return htmlstr
def repalce(s,re_exp,repl_string):
return re_exp.sub(repl_string,s)
if __name__=='__main__':
s=file('169it.com_index.htm').read()
news=filter_tags(s)
print news
이상 은 본문의 전체 내용 이 므 로 여러분 의 학습 에 도움 이 되 기 를 바 랍 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.