Python에서 웹 스크래핑 시작하기
웹 스크래핑과 관련된 단계
웹 스크래핑에 사용되는 라이브러리
아래 라이브러리는 샘플 웹 스크래핑에 사용됩니다. Python 프로젝트의 가상 환경에 설치합니다.
# used to perform GET request
pip install requests
# used to parse HTML
pip install lxml
# used to process html content and get the desired data
pip install beautifulsoup4
샘플 스크래핑
우리는 스크래핑을 시도하기 위해 Quotes to Scrape 웹 사이트를 사용할 것입니다. 우리의 임무는 사이트에서 인용문과 저자를 가져와 튜플 형식으로 인쇄하는 것입니다.
import requests
from bs4 import BeautifulSoup
# URL for web scraping
url = "http://quotes.toscrape.com/"
# Perform GET request
response = requests.get(url)
# Parse HTML from the response
soup = BeautifulSoup(response.text, 'lxml')
#Extract quotes and quthors html elements
quotes_html = soup.find_all('span', class_="text")
authors_html = soup.find_all('small', class_="author")
#Extract quotes into a list
quotes = list()
for quote in quotes_html:
quotes.append(quote.text)
#Extract authors into a list
authors = list()
for author in authors_html:
authors.append(author.text)
# Make a quote / author tuple for printing
for t in zip(quotes, authors):
print(t)
마지막 생각들
웹 스크래핑은 배워야 할 기본 기술 중 하나입니다. 그러나 정기적으로 웹 스크래핑을 위해 웹사이트를 사용하기 전에 책임을 지고 법적 조건을 준수해야 합니다.
Reference
이 문제에 관하여(Python에서 웹 스크래핑 시작하기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/dev0928/getting-started-with-web-scraping-in-python-1joi텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)