Scrapy로 노벨 장 수상자 정보 획득(PJDV6.4장) - Scrapy shell
개요
PJDV 5.7~5.7.1, PJDV 5.7.3의 후속.
O'Reilly Japan-Python과 JavaScript로 시작하는 데이터로 바쁘게 맞추기(PJDV)의 학습용
scrapy shell을 사용하여 XPathPJDV6.4 "첫 번째 Scrapy 거미"(nwinners list spider.py)의 XPath를 구체적으로 확인합니다.
차리다
웹 페이지 읽기
다음 중 한 가지 방법으로 읽습니다.
scrapy shell http://en.wikipedia.org/wiki/List_of_Nobel_laureates_by_country
시작scrapy shell
(파라미터 url 없음)에서 시작한 후fetch("http://en.wikipedia.org/wiki/List_of_Nobel_laureates_by_country")
view(response)
브라우저를 시작하면 편리합니다.XPath 기술 위치
nwinners_list_spider.py
h2s = response.xpath('//h2')
설명
생략 문법
완전한 문법
의향
참고 자료
//h2
/descendant-or-self::node()/child::h2
모든 h2 요소
참조 1 참조 2
조사하다.
뭘 받으셨는지 확인해 볼게요.
country = h2.xpath('span[ @class ="mw-headline"]/text()').extract()
winners = h2.xpath('following-sibling::ol[1]')
for w in winners.xpath('li'):
text = w.xpath('descendant-or-self::text()').extract()
tips
scrapy crawl에서 scrapy shell 시작하기
nwinners_shell.py# -*- coding: utf-8 -*-
import scrapy
class NWinnerShell(scrapy.Spider):
name = 'nwinner_shell'
allowed_domains = ['en.wikipedia.org']
start_urls = [
"http://en.wikipedia.org/wiki/List_of_Nobel_laureates_by_country"
]
def parse(self, response):
scrapy.shell.inspect_response(response, self)
참고 자료
브라우저에서 Scrapy 결과 열기 - Qiita
scrapy에서 자주 사용하는 xpath, css 선택기 - Pythn Snipets
Pythhon Tips: 목록에서 중복 요소를 제거하려면 - Life with Pythhon
Reference
이 문제에 관하여(Scrapy로 노벨 장 수상자 정보 획득(PJDV6.4장) - Scrapy shell), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/int_main_void/items/ea2f908ae47e668b4bc8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
winners = h2.xpath('following-sibling::ol[1]')
for w in winners.xpath('li'):
text = w.xpath('descendant-or-self::text()').extract()
scrapy crawl에서 scrapy shell 시작하기
nwinners_shell.py
# -*- coding: utf-8 -*-
import scrapy
class NWinnerShell(scrapy.Spider):
name = 'nwinner_shell'
allowed_domains = ['en.wikipedia.org']
start_urls = [
"http://en.wikipedia.org/wiki/List_of_Nobel_laureates_by_country"
]
def parse(self, response):
scrapy.shell.inspect_response(response, self)
참고 자료
브라우저에서 Scrapy 결과 열기 - Qiita
scrapy에서 자주 사용하는 xpath, css 선택기 - Pythn Snipets
Pythhon Tips: 목록에서 중복 요소를 제거하려면 - Life with Pythhon
Reference
이 문제에 관하여(Scrapy로 노벨 장 수상자 정보 획득(PJDV6.4장) - Scrapy shell), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/int_main_void/items/ea2f908ae47e668b4bc8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Scrapy로 노벨 장 수상자 정보 획득(PJDV6.4장) - Scrapy shell), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/int_main_void/items/ea2f908ae47e668b4bc8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)