Python 웹 페이지 분석 HTML Parse 의 인 스 턴 스 상세 설명
python 을 사용 하여 웹 페이지 를 캡 처 한 후에 다음 단 계 는 웹 페이지 를 분석 하고 우리 가 필요 로 하 는 내용 을 추출 해 야 합 니 다.python 에서 간단 한 분석 모듈 인 HTMLParser 류 를 제 공 했 습 니 다.사용 하기에 도 비교적 간단 합 니 다.해석 문법 은 XPath 와 유사 한 간결 한 모델 을 사용 하지 않 았 지만 초보 자 는 사용 하기 가 비교적 쉽 습 니 다.아래 의 예 를 보 세 요.
현재 시 뮬 레이 션 html 파일:
<html> <title id='main' mouse=' '> </title><body> </body> </html>
필요 한 것 은 제목 의 속성 값 과 내용 을 추출 하 는 것 입 니 다.코드 는 다음 과 같 습 니 다:
import html.parser as h
class MyHTMLParser(h.HTMLParser):
a_t=False
def handle_starttag(self, tag, attrs):
#print(" :",tag)
print()
if str(tag).startswith("title"):
print(tag)
self.a_t=True
for attr in attrs:
print(" :",attr)
def handle_endtag(self, tag):
if tag == "title":
self.a_t=False
#print(" :",tag)
def handle_data(self, data):
if self.a_t is True:
print(" : ",data)
p=MyHTMLParser()
p.feed("<html> <title id='main' mouse=' '> </title><body> </body> </html>")
p.close()
실행 결 과 는 다음 과 같 습 니 다.
title
: ('id', 'main')
: ('mouse', ' ')
:
주요 한 기술 은 HTML Parser 류 를 계승 한 다음 에 그 중의 몇 가지 방법 을 다시 써 서 자신의 업 무 를 완성 하 는 것 이다.위의 코드 에서 특정한 태그 의 내용 을 얻 으 려 면 비교적 번 거 로 운 것 을 발견 했다.물론 이것 은 python 에서 가장 간단 한 html 해석 방식 이 고 다른 구성 요소 도 많다.scrapy 등 은 Xpath 경로 해석 을 지원 한다.사용 하기에 매우 깔끔 하고 시원 합 니 다.분석 코드 를 배 운 후에 우 리 는 urllib 패 키 지 를 사용 하여 캡 처 한 데 이 터 를 htmlparser 에 게 분석 하여 우리 가 필요 로 하 는 내용 을 추출 할 수 있 습 니 다.
이상 은 Python 홈 페이지 에서 HTML Parse 를 해석 하 는 실례 입 니 다.궁금 한 점 이 있 으 시 면 메 시 지 를 남기 거나 본 사이트 커 뮤 니 티 에 가서 토론 하 십시오.읽 어 주 셔 서 감사합니다. 도움 이 되 셨 으 면 좋 겠 습 니 다.본 사이트 에 대한 지지 에 감 사 드 립 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.