파이썬 부트캠프 크롤링

1. 라이브러리 임포트
import requests
from bs4 import BeautifulSoup

2. 웹페이지 가져오기
res = requests.get('http://v.media.daum.net/')

3. 웹페이지 파싱하기
soup = BeautifulSoup(res.content,'html.parser')

4. 필요한 데이터 추출하기
mydata = soup.find('titlt')

5. 추출한 데이터 활용하기
print(mydata.get_text())

필요 라이브러리

  • requests
    웹 페이지 가져오기 라이브러리
  • bs4(BeautifulSoup)
    웹페이지분석(크롤링) 라이브러리

웹페이지 가져오기

res = requests.get('https://www. ~~~')
res.content

웹페이지 파싱하기

파싱(parsing)이란? 문자열을 분석하는 것
ex) '나는 가방을 매고 학교에 갑니다'
-> 이건 주어고 목적어고 이건 동사고

이걸 BeautifulSoup로 사용할 수 있다.
soup = BeautifulSoup(res.content, 'html.parser')

필요한 데이터 추출하기

mydata = soup.find('title')

추출한 데이터 활용하기

print(mydata.get_text())

요약

import requests
res = requests.get('https://www.inflearn.com/')
res.content

soup = BeautifulSoup(res.cotent, 'html.parser')
md = soup.find('h3')
print(md.get_text())

좋은 웹페이지 즐겨찾기