파이썬 부트캠프 크롤링
시작
import requests
from bs4 import BeautifulSoup
html = """
<html>
<body>
<h1 id='title'>크롤링이란?</h1>
<p class='cassstle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
<p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
</body>
</html>
"""
soup = BeautifulSoup(html, "html.parser")
data = soup.find('p')
print(data.string)
클래스찾기
data = soup.find('p', class='cssstyle')
data = soup.find('p', 'cssstyle')
data = soup.find('p', attrs = {'align': 'center'})
data = soup.find(id = 'body')
특정데이터를 모두 가져와라
data = soup.find_all('p')
//리스트는 각각의 아이템을 뽑아와야한다.
for item in data:
print(item.string)
정리
-
원하는 태그를 가져온다.
-
크롤링 패턴코드를 사용한다.
import requests from bs4 import BeautifulSoup res = requests.get('https://www.mk.co.kr/news/economy/view/2021/01/8133/?utm_source=naver&utm_medium=newsstand') soup = BeautifulSoup(res.content, 'html.parser') mydata = soup.find('title') print(mydata.get_text()) print(mydata.string)
2-2. 태그만으로 부족하다면 여러가지 속성을 가져온다.
data = soup.find('p', class='cssstyle')
data = soup.find('p', 'cssstyle')
data = soup.find('p', attrs = {'align': 'center'})
data = soup.find(id = 'body')
- 원하는 데이터를 find_all() 함수를 통해 가져온다.
Author And Source
이 문제에 관하여(파이썬 부트캠프 크롤링), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@hongdongdong/파이썬-부트캠프-크롤링-q8jj0rnd저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)