Python 의 bs4 기초

1996 단어 pythonbs4
설치 하 다.
명령 프롬프트 상자 에 직접 입력pip install beautifulsoup4소개 하 다.
beautifulsoup 은 python 의 제3자 라 이브 러 리 로 xpath 와 마찬가지 로 html 데 이 터 를 분석 하 는 데 사 용 됩 니 다.
끌어들이다

from bs4 import BeautifulSoup
쓰다
문 서 를 BeautifulSoup 의 구조 방법 에 전달 하면 문서 의 대상 을 얻 을 수 있 습 니 다.

bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)
메모:이렇게 문 서 를 업로드 하려 면 BeautifulSoup 에 두 개의 인자 가 필요 합 니 다.하 나 는 open 방법 이 고,하 나 는 고정 적 인 쓰기,즉 해석 기 입 니 다.
open 방법 에 도 두 개의 인자 가 필요 합 니 다.하 나 는 분석 하고 자 하 는 데이터 이 고 다른 하 나 는 인 코딩 을 설정 하 는 형식 입 니 다.
(1)웹 페이지 의 title 탭 가 져 오기print(bs.title)(2)헤드 탭 과 탭 내부 의 모든 다른 탭 가 져 오기print(bs.head)(3)첫 번 째 a 탭 가 져 오기print(bs.a)메모:문서 의 모든 xx 중 첫 번 째 xx 또는 첫 번 째 xx 의 내용 을 가 져 옵 니 다.모두 bs.xx 로 가 져 올 수 있 습 니 다.
(4)지정 한 탭 의 모든 속성 가 져 오기print(bs.a.attrs)(5)탭 속성 가 져 오기print(bs.a['href'])
(6)탭 의 텍스트 내용 가 져 오기.print(bs.a.string)
메모:string 에서 가 져 온 텍스트 는 이 탭 의 텍스트 를 말 하 며 하위 탭 이 포함 되 지 않 은 텍스트 를 말 합 니 다.
(7)contents 는 지정 한 탭 아래 의 모든 내용 을 가 져 올 수 있 습 니 다.print(bs.body.contents)(8)모든 내용 에서 지 정 된 색인 내용 가 져 오기print(bs.div.contents[3])(9)id 와 클래스 이름 으로 탭 찾기print(bs.find(id='kw'))
print(bs.find(class_='shopping'))
메모:id 는 유일한 것 입 니 다.id 를 통 해 찾 을 수 있 습 니 다.하나만 찾 을 수 있 기 때문에 클래스 가 유일한 것 이 아니 라 클래스 를 통 해 찾 으 면 여러 개 를 찾 을 수 있 습 니 다.
(10)select 지정 한 탭 선택print(bs.select('title'))
print(bs.select('a'))
bs4 에서 소수점"."클래스 이름 을 표시 합 니 다.\#id 를 표시 합 니 다.print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))
총결산
이상 은 이 글 의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 참고 학습 가 치 를 가지 기 를 바 랍 니 다.여러분 의 저희 에 대한 지지 에 감 사 드 립 니 다.더 많은 내용 을 알 고 싶다 면 아래 링크 를 보 세 요.

좋은 웹페이지 즐겨찾기