Scrapy - 첫 번째 scrapy 프로그램

2165 단어 Scrapy

1. 스파이더 파일 작성
scrapy genspider 응용 프로그램 이름을 실행하고 웹 페이지의 시작 URL을 찾습니다. 예를 들어 scrapy genspider qiubai www.qiushibaik.com)spiders 폴더에 응용 프로그램과 같은 이름을 생성합니다.py 파일

# -*- coding: utf-8 -*-
import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai' #    
    #       （         url       ）
    allowed_domains = ['https://www.qiushibaike.com/']
    #     url
    start_urls = ['https://www.qiushibaike.com/']

     #    URL           ，    response        url     ，       .                NUll 
     def parse(self, response):
        print(response.text) #            
        print(response.body)#

2. settings를 설정합니다.py 프로필

          ：
19 ：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #         

22 ：ROBOTSTXT_OBEY = False  #          robots  
37 ：#COOKIES_ENABLED = False #       ;       session;    True

3. 파충류 프로그램 실행

scrapy crawl      ：                
scrapy crawl      --nolog：

4. 실례

# -*- coding: utf-8 -*-
import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    allowed_domains = ['https://www.qiushibaike.com/']
    start_urls = ['https://www.qiushibaike.com/']

    def parse(self, response):
        #xpath response    ，   xpath            
        odiv = response.xpath('//div[@id="content-left"]/div')
        content_list = [] #          
        for div in odiv:
            #xpath        ，         Selector     。             Selector   ，    extract()         Selecor   。
            author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
            content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()

            #             
            dic={
                '  ':author,
                '  ':content
            }
            #      content_list     
            content_list.append(dic)

        return content_list

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

AWS lambda+scrapy로 정기적으로 서버리스 스크래핑 1.8

먼저 결론을 쓰면 Lambda에서 움직이는 곳까지 갈 수 없었습니다. 다른 방법의 대처는 있으므로, 그쪽이 잘 되면 추기, 혹은 다른 기사로서 들려고 생각합니다. 이번에는 작성한 weather_spider.py를 A...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다