Python 웹 페이지 분석 HTML Parse 의 인 스 턴 스 상세 설명

Python 웹 페이지 분석 HTML Parse 의 인 스 턴 스 상세 설명
python 을 사용 하여 웹 페이지 를 캡 처 한 후에 다음 단 계 는 웹 페이지 를 분석 하고 우리 가 필요 로 하 는 내용 을 추출 해 야 합 니 다.python 에서 간단 한 분석 모듈 인 HTMLParser 류 를 제 공 했 습 니 다.사용 하기에 도 비교적 간단 합 니 다.해석 문법 은 XPath 와 유사 한 간결 한 모델 을 사용 하지 않 았 지만 초보 자 는 사용 하기 가 비교적 쉽 습 니 다.아래 의 예 를 보 세 요.
현재 시 뮬 레이 션 html 파일:


<html> <title id='main' mouse='  '>    </title><body>    </body>  </html>

필요 한 것 은 제목 의 속성 값 과 내용 을 추출 하 는 것 입 니 다.
코드 는 다음 과 같 습 니 다:


import html.parser as h 
 
 
 
class MyHTMLParser(h.HTMLParser): 
  a_t=False 
  def handle_starttag(self, tag, attrs): 
    #print("      :",tag) 
    print() 
    if str(tag).startswith("title"): 
      print(tag) 
      self.a_t=True 
      for attr in attrs: 
        print("     ：",attr) 
 
  def handle_endtag(self, tag): 
    if tag == "title": 
      self.a_t=False 
      #print("      :",tag) 
 
  def handle_data(self, data): 
    if self.a_t is True: 
      print("     : ",data) 
 
 
 
p=MyHTMLParser() 
 
p.feed("<html> <title id='main' mouse='  '>    </title><body>    </body>  </html>") 
 
p.close()

실행 결 과 는 다음 과 같 습 니 다.


title 
     ： ('id', 'main') 
     ： ('mouse', '  ') 
     :

주요 한 기술 은 HTML Parser 류 를 계승 한 다음 에 그 중의 몇 가지 방법 을 다시 써 서 자신의 업 무 를 완성 하 는 것 이다.위의 코드 에서 특정한 태그 의 내용 을 얻 으 려 면 비교적 번 거 로 운 것 을 발견 했다.물론 이것 은 python 에서 가장 간단 한 html 해석 방식 이 고 다른 구성 요소 도 많다.scrapy 등 은 Xpath 경로 해석 을 지원 한다.사용 하기에 매우 깔끔 하고 시원 합 니 다.
분석 코드 를 배 운 후에 우 리 는 urllib 패 키 지 를 사용 하여 캡 처 한 데 이 터 를 htmlparser 에 게 분석 하여 우리 가 필요 로 하 는 내용 을 추출 할 수 있 습 니 다.
이상 은 Python 홈 페이지 에서 HTML Parse 를 해석 하 는 실례 입 니 다.궁금 한 점 이 있 으 시 면 메 시 지 를 남기 거나 본 사이트 커 뮤 니 티 에 가서 토론 하 십시오.읽 어 주 셔 서 감사합니다. 도움 이 되 셨 으 면 좋 겠 습 니 다.본 사이트 에 대한 지지 에 감 사 드 립 니 다!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

Python의 None과 NULL의 차이점 상세 정보

그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다