파이썬 부트캠프 크롤링2

HTML/CSS 언어 이해를 기반으로 크롤링해보기

data = soup.find('h3', 'tit_view')
print(data.get_text())

data = soup.find('span', 'txt_info')
print(data.get_text())

data = soup.find_all('span', 'txt_view')
for item in data:
	print(item.get_text())
    
data = soup.find_all('span', 'txt_view')
print(data[1].get_text())

data = soup.find('div', 'layer_util layer_summary')
print(data.get_text())    

---

기술 팁

직접 크롤링 해봐라!

추출하기

import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

titles = soup.find_all('li', 'course')
for title in titles:
	print(title.get_text())

추출한 것에서 추출하기

import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')
section = soup.find('ul', id='dev_course_list')

titles = section.find_all('li', 'course')
for title in titles:

print(title.get_text())

파이썬 문자열 함수와 함께 쓰기
1. strip() 함수 사용해보기
2. split() 함수 사용해보기 (특정한 문제를 기준으로 나눈다.)

	print(title.get_text().split('[')[0].split('-')[1].strip())	
    

숫자까지 만든다면

for index,title in enumerate(titles):
	print(index + 1, title.get_text().split('[')[0].split('-')[1].strip())

좋은 웹페이지 즐겨찾기