파이썬 부트캠프 크롤링

시작

import requests
from bs4 import BeautifulSoup
html = """
<html>
	<body>
    	<h1 id='title'>크롤링이란?</h1>
        <p class='cassstle'>웹페이지에서 필요한 데이터를 추출하는 것</p>
        <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
    </body>
</html>
"""

soup = BeautifulSoup(html, "html.parser")
data = soup.find('p')
print(data.string)

클래스찾기

data = soup.find('p', class='cssstyle')
data = soup.find('p', 'cssstyle')
data = soup.find('p', attrs = {'align': 'center'})
data = soup.find(id = 'body')

특정데이터를 모두 가져와라

data = soup.find_all('p')
//리스트는 각각의 아이템을 뽑아와야한다.
for item in data:
	print(item.string)
    
    

정리

  1. 원하는 태그를 가져온다.

  2. 크롤링 패턴코드를 사용한다.

    import requests
    from bs4 import BeautifulSoup
    res = requests.get('https://www.mk.co.kr/news/economy/view/2021/01/8133/?utm_source=naver&utm_medium=newsstand')
    soup = BeautifulSoup(res.content, 'html.parser')
    mydata = soup.find('title')
    print(mydata.get_text())
    print(mydata.string)

2-2. 태그만으로 부족하다면 여러가지 속성을 가져온다.

	data = soup.find('p', class='cssstyle')
	data = soup.find('p', 'cssstyle')
	data = soup.find('p', attrs = {'align': 'center'})
	data = soup.find(id = 'body')
  1. 원하는 데이터를 find_all() 함수를 통해 가져온다.

좋은 웹페이지 즐겨찾기