파이썬 부트캠프 크롤링

시작

import requests
from bs4 import BeautifulSoup
html = """
<html>
	<body>
    	<h1 id='title'>크롤링이란?</h1>
        <p class='cassstle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
        <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
    </body>
</html>
"""

soup = BeautifulSoup(html, "html.parser")
data = soup.find('p')
print(data.string)

클래스찾기

data = soup.find('p', class='cssstyle')
data = soup.find('p', 'cssstyle')
data = soup.find('p', attrs = {'align': 'center'})
data = soup.find(id = 'body')

특정데이터를 모두 가져와라

data = soup.find_all('p')
//리스트는 각각의 아이템을 뽑아와야한다.
for item in data:
	print(item.string)

정리

원하는 태그를 가져온다.

크롤링 패턴코드를 사용한다.

import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.mk.co.kr/news/economy/view/2021/01/8133/?utm_source=naver&utm_medium=newsstand')
soup = BeautifulSoup(res.content, 'html.parser')
mydata = soup.find('title')
print(mydata.get_text())
print(mydata.string)

2-2. 태그만으로 부족하다면 여러가지 속성을 가져온다.

	data = soup.find('p', class='cssstyle')
	data = soup.find('p', 'cssstyle')
	data = soup.find('p', attrs = {'align': 'center'})
	data = soup.find(id = 'body')

원하는 데이터를 find_all() 함수를 통해 가져온다.

Author And Source

이 문제에 관하여(파이썬 부트캠프 크롤링), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@hongdongdong/파이썬-부트캠프-크롤링-q8jj0rnd

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다