Scrapy - 첫 번째 scrapy 프로그램
2165 단어 Scrapy
scrapy genspider 응용 프로그램 이름을 실행하고 웹 페이지의 시작 URL을 찾습니다. 예를 들어 scrapy genspider qiubai www.qiushibaik.com)spiders 폴더에 응용 프로그램과 같은 이름을 생성합니다.py 파일
# -*- coding: utf-8 -*-
import scrapy
class QiubaiSpider(scrapy.Spider):
name = 'qiubai' #
# ( url )
allowed_domains = ['https://www.qiushibaike.com/']
# url
start_urls = ['https://www.qiushibaike.com/']
# URL , response url , . NUll
def parse(self, response):
print(response.text) #
print(response.body)#
2. settings를 설정합니다.py 프로필
:
19 :USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #
22 :ROBOTSTXT_OBEY = False # robots
37 :#COOKIES_ENABLED = False # ; session; True
3. 파충류 프로그램 실행
scrapy crawl :
scrapy crawl --nolog:
4. 실례
# -*- coding: utf-8 -*-
import scrapy
class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
allowed_domains = ['https://www.qiushibaike.com/']
start_urls = ['https://www.qiushibaike.com/']
def parse(self, response):
#xpath response , xpath
odiv = response.xpath('//div[@id="content-left"]/div')
content_list = [] #
for div in odiv:
#xpath , Selector 。 Selector , extract() Selecor 。
author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()
#
dic={
' ':author,
' ':content
}
# content_list
content_list.append(dic)
return content_list
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
AWS lambda+scrapy로 정기적으로 서버리스 스크래핑 1.8먼저 결론을 쓰면 Lambda에서 움직이는 곳까지 갈 수 없었습니다. 다른 방법의 대처는 있으므로, 그쪽이 잘 되면 추기, 혹은 다른 기사로서 들려고 생각합니다. 이번에는 작성한 weather_spider.py를 A...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.