Python을 사용하여 웹사이트를 스크랩하는 방법

2564 단어 python
1) 파이썬 가상 환경 생성

C:\Users\Owner> cd desktop
C:\Users\Owner\desktop> py -m venv scrap
C:\Users\Owner\desktop> cd scrap
C:\Users\Owner\desktop\scrap> Scripts\activate
(scrap)C:\Users\Owner\desktop\scrap>


2) 스크래피 설치

(scrap)C:\Users\Owner\desktop\scrap>pip install scrapy


3) 스크랩 프로젝트 만들기

scrapy startproject myproject


4) 기본 거미 만들기
myprojects > spider 폴더에 spider1.py라는 파일을 만듭니다.
하위 클래스, 이름, start_urls를 추가하고 .readmore <p> 태그의 모든 텍스트를 가져옵니다.

import scrapy
class ReviewSpider(scrapy.Spider):
    name = "quicken"
    start_urls = [
    "https://www.creditkarma.com/reviews/mortgage/single/id/quicken-loans-mortgage/",
    ]
    def parse(self, response):
      reviews = response.css('.readmoreInner p::text').getall()
      yield {"text" : reviews}


5) 거미를 실행

(scrap) C:\Users\Owner\Desktop\code\scrap\myproject\myproject\spiders>scrapy crawl quicken


6) 데이터 저장

(scrap) C:\Users\Owner\Desktop\code\scrap\myproject\myproject\spiders>scrapy crawl quicken -o reviews.json


Beginner's Guide to Scrapy for Python

좋은 웹페이지 즐겨찾기