Python 은 BeautifulSoup 을 이용 하여 Html 을 해석 하 는 방법 예시
2154 단어 pythonbeautifulsoup해석 html
Beautiful Soup 은 내 비게 이 션,검색,분석 트 리 수정 등 간단 하고 python 식 함 수 를 제공 합 니 다.이것 은 도구 상자 입 니 다.문 서 를 분석 하여 사용자 에 게 캡 처 할 데 이 터 를 제공 합 니 다.간단 하기 때문에 코드 가 필요 하지 않 아 도 완전한 프로그램 을 쓸 수 있 습 니 다.
Beautiful Soup 은 자동 으로 입력 문 서 를 유 니 코드 인 코딩 으로,출력 문 서 를 utf-8 인 코딩 으로 변환 합 니 다.문서 에 인 코딩 방식 이 지정 되 어 있 지 않 으 면 Beautiful Soup 은 인 코딩 방식 을 자동 으로 식별 할 수 없습니다.그리고 원본 인 코딩 방식 만 설명 하면 됩 니 다.
Beautiful Soup 은 lxml,html6lib 와 같은 뛰어난 python 해석 기 가 되 어 사용자 에 게 다양한 해석 전략 이나 강력 한 속 도 를 유연 하 게 제공 합 니 다.
본 고 는 Python 이 BeautifulSoup 을 이용 하여 Html 을 해석 하 는 방법 에 대해 상세 하 게 소개 할 것 입 니 다.다음은 더 이상 말 하지 않 겠 습 니 다.상세 한 소 개 를 살 펴 보 겠 습 니 다.
1.Beautifulsoup 4 설치
pip install beautifulsoup4
pip install lxml
pip install html5lib
lxml 와 html 5lib 는 해상도 기 입 니 다.2. html
<!-- This is the example.html file. -->
<html><head><title>The Website Title</title></head>
<body>
<p>Download my <strong>Python</strong> book from <a href="http://inventwithpython.com" rel="external nofollow" >my website</a>.</p>
<p class="slogan">Learn Python the easy way!</p>
<p>By <span id="author">Al Sweigart</span></p>
</body></html>
위의 html 저장 html 파일3.해석 시작
import bs4
exampleFile = open('example.html')
exampleSoup = bs4.BeautifulSoup(exampleFile.read(),'html5lib')
elems = exampleSoup.select('#author')
type(elems)
print (elems[0].getText())
결과 출력 Al SweigartBeautifulSoup 은 select 방법 으로 요 소 를 찾 습 니 다.jquery 와 같은 css 선택 기 입 니 다.
soup.select(‘div')
―C 는 모두의 원소
soup.select(‘#author')
―Cid 는 author 의 요소soup.select(‘.notice')
―class 는 notice 의 요소총결산
이상 은 이 글 의 전체 내용 입 니 다.본 논문 의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 도움 이 되 기 를 바 랍 니 다.궁금 한 점 이 있 으 시 면 댓 글 을 남 겨 주 십시오.저희 에 대한 지지 에 감 사 드 립 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.