[TIL] Crawling (Django) - 미완
Crawling
수많은 인터넷상의 데이터들을 수집하기 위한 작업.
python을 활용해서 내가 원하는 정보를 쉽게 크롤링 할 수가 있다.
일반적으로 beautifulsoup4 & selenium 과 같은 라이브러리가 쓰인다.
CSV 파일
엑셀과 비슷한 행렬 구조의 데이터를 저장하기 위한 포멧. 크롤링과 함께 따라다닌다.
1.환경설치
pip install beautifulsoup4 #뷰티풀숩
pip install selenium #셀레니움
pip install request # 웹사이트로 요청을 할 때 필요하기 때문에 설치가 필요하다.
2.기본세팅
기본 적으로 아래와 같이 라이브러리 및 패키지들을 import 해주고,
csv파일로 저장 하겠다고 선언.
특히, 크롬을 통해 크롤링 할때는
driver = webdriver.Chrome(ChromeDriverManager().install())
3.find & find_all
크롤링에서 가장 많이 사용하는 함수이다.
find는 가장 앞에 있는 한가지를, findall은 모두 다 찾아서 list 형태로 저장한다.
*선택자: select
보통 위 사진과 같이 크롤링에서는 for문과 같이 많이 쓰이고, 특정 범위를 지정할 때 많이 쓰인다.
Author And Source
이 문제에 관하여([TIL] Crawling (Django) - 미완), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@kimsj5259/TIL-Crawling-python저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)