Python 의 bs4 기초
명령 프롬프트 상자 에 직접 입력
pip install beautifulsoup4
소개 하 다.beautifulsoup 은 python 의 제3자 라 이브 러 리 로 xpath 와 마찬가지 로 html 데 이 터 를 분석 하 는 데 사 용 됩 니 다.
끌어들이다
from bs4 import BeautifulSoup
쓰다문 서 를 BeautifulSoup 의 구조 방법 에 전달 하면 문서 의 대상 을 얻 을 수 있 습 니 다.
bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)
메모:이렇게 문 서 를 업로드 하려 면 BeautifulSoup 에 두 개의 인자 가 필요 합 니 다.하 나 는 open 방법 이 고,하 나 는 고정 적 인 쓰기,즉 해석 기 입 니 다.open 방법 에 도 두 개의 인자 가 필요 합 니 다.하 나 는 분석 하고 자 하 는 데이터 이 고 다른 하 나 는 인 코딩 을 설정 하 는 형식 입 니 다.
(1)웹 페이지 의 title 탭 가 져 오기
print(bs.title)
(2)헤드 탭 과 탭 내부 의 모든 다른 탭 가 져 오기print(bs.head)
(3)첫 번 째 a 탭 가 져 오기print(bs.a)
메모:문서 의 모든 xx 중 첫 번 째 xx 또는 첫 번 째 xx 의 내용 을 가 져 옵 니 다.모두 bs.xx 로 가 져 올 수 있 습 니 다.(4)지정 한 탭 의 모든 속성 가 져 오기
print(bs.a.attrs)
(5)탭 속성 가 져 오기print(bs.a['href'])
(6)탭 의 텍스트 내용 가 져 오기.print(bs.a.string)
메모:string 에서 가 져 온 텍스트 는 이 탭 의 텍스트 를 말 하 며 하위 탭 이 포함 되 지 않 은 텍스트 를 말 합 니 다.(7)contents 는 지정 한 탭 아래 의 모든 내용 을 가 져 올 수 있 습 니 다.
print(bs.body.contents)
(8)모든 내용 에서 지 정 된 색인 내용 가 져 오기print(bs.div.contents[3])
(9)id 와 클래스 이름 으로 탭 찾기print(bs.find(id='kw'))
print(bs.find(class_='shopping'))
메모:id 는 유일한 것 입 니 다.id 를 통 해 찾 을 수 있 습 니 다.하나만 찾 을 수 있 기 때문에 클래스 가 유일한 것 이 아니 라 클래스 를 통 해 찾 으 면 여러 개 를 찾 을 수 있 습 니 다.(10)select 지정 한 탭 선택
print(bs.select('title'))
print(bs.select('a'))
bs4 에서 소수점"."클래스 이름 을 표시 합 니 다.\#id 를 표시 합 니 다.print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))
총결산이상 은 이 글 의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 참고 학습 가 치 를 가지 기 를 바 랍 니 다.여러분 의 저희 에 대한 지지 에 감 사 드 립 니 다.더 많은 내용 을 알 고 싶다 면 아래 링크 를 보 세 요.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.