Python 웹 페이지 분석 HTML Parse 의 인 스 턴 스 상세 설명

Python 웹 페이지 분석 HTML Parse 의 인 스 턴 스 상세 설명
python 을 사용 하여 웹 페이지 를 캡 처 한 후에 다음 단 계 는 웹 페이지 를 분석 하고 우리 가 필요 로 하 는 내용 을 추출 해 야 합 니 다.python 에서 간단 한 분석 모듈 인 HTMLParser 류 를 제 공 했 습 니 다.사용 하기에 도 비교적 간단 합 니 다.해석 문법 은 XPath 와 유사 한 간결 한 모델 을 사용 하지 않 았 지만 초보 자 는 사용 하기 가 비교적 쉽 습 니 다.아래 의 예 를 보 세 요.
현재 시 뮬 레이 션 html 파일:

<html> <title id='main' mouse='  '>    </title><body>    </body>  </html> 
필요 한 것 은 제목 의 속성 값 과 내용 을 추출 하 는 것 입 니 다.
코드 는 다음 과 같 습 니 다:

import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("      :",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("     :",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("      :",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("     : ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='  '>    </title><body>    </body>  </html>") 
 
p.close() 

실행 결 과 는 다음 과 같 습 니 다.

title 
     : ('id', 'main') 
     : ('mouse', '  ') 
     :      
주요 한 기술 은 HTML Parser 류 를 계승 한 다음 에 그 중의 몇 가지 방법 을 다시 써 서 자신의 업 무 를 완성 하 는 것 이다.위의 코드 에서 특정한 태그 의 내용 을 얻 으 려 면 비교적 번 거 로 운 것 을 발견 했다.물론 이것 은 python 에서 가장 간단 한 html 해석 방식 이 고 다른 구성 요소 도 많다.scrapy 등 은 Xpath 경로 해석 을 지원 한다.사용 하기에 매우 깔끔 하고 시원 합 니 다.
분석 코드 를 배 운 후에 우 리 는 urllib 패 키 지 를 사용 하여 캡 처 한 데 이 터 를 htmlparser 에 게 분석 하여 우리 가 필요 로 하 는 내용 을 추출 할 수 있 습 니 다.
이상 은 Python 홈 페이지 에서 HTML Parse 를 해석 하 는 실례 입 니 다.궁금 한 점 이 있 으 시 면 메 시 지 를 남기 거나 본 사이트 커 뮤 니 티 에 가서 토론 하 십시오.읽 어 주 셔 서 감사합니다. 도움 이 되 셨 으 면 좋 겠 습 니 다.본 사이트 에 대한 지지 에 감 사 드 립 니 다!

좋은 웹페이지 즐겨찾기