python 파충류 의 xpath 기본 사용 설명
XPath 는 XML 문서 에서 정 보 를 찾 는 언어 입 니 다.XPath 는 XML 문서 에서 요소 와 속성 을 옮 겨 다 니 는 데 사용 할 수 있 습 니 다.XPath 는 W3C XSLT 표준 의 주요 요소 이 고 XQuery 와 XPointer 는 모두 XPath 표현 위 에 구축 되 었 다.
설치
pip3 install lxml
사용1.가 져 오기
from lxml import etree
2.기본 사용
from lxml import etree
wb_data = """
<div>
<ul>
<li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>
<li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>
<li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>
<li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>
<li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a>
</ul>
</div>
"""
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8"))
아래 의 결 과 를 보면 우리 프린터 html 는 사실 python 대상 이 고 etree.tostring(html)은 불완전 html 의 기본 적 인 표기 법 으로 팔 과 다리 가 부족 한 라벨 을 보완 했다.
<Element html at 0x39e58f0>
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>
<li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>
<li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>
<li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>
<li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a>
</li></ul>
</div>
</body></html>
3.특정한 태그 의 내용(기본 사용)을 가 져 옵 니 다.주의 하 세 요.a 태그 의 모든 내용 을 가 져 옵 니 다.a 뒤에 정 슬 래 쉬 를 추가 하지 않 아 도 됩 니 다.그렇지 않 으 면 오 류 를 보고 합 니 다.서법
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a')
print(html)
for i in html_data:
print(i.text)
<Element html at 0x12fe4b8>
first item
second item
third item
fourth item
fifth item
쓰기 2(내용 을 찾 아야 할 탭 뒤에/text()를 추가 하면 됩 니 다)
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
print(html)
for i in html_data:
print(i)
<Element html at 0x138e4b8>
first item
second item
third item
fourth item
fifth item
4.html 파일 읽 기 열기
# parse html
html = etree.parse('test.html')
html_data = html.xpath('//*')<br># ,
print(html_data)
for i in html_data:
print(i.text)
html = etree.parse('test.html')
html_data = etree.tostring(html,pretty_print=True)
res = html_data.decode('utf-8')
print(res)
:
<div>
<ul>
<li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>
<li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>
<li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>
<li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>
<li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a></li>
</ul>
</div>
5.지정 한 경로 에서 a 탭 의 속성 을 인쇄 합 니 다(특정한 속성의 값 을 옮 겨 다 니 며 탭 의 내용 을 찾 을 수 있 습 니 다)
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/@href')
for i in html_data:
print(i)
인쇄:link1.html
link2.html
link3.html
link4.html
link5.html
6.우 리 는 xpath 를 사용 하여 모두 하나의 Element Tree 대상 을 얻 었 다 는 것 을 알 고 있 기 때문에 내용 을 찾 으 려 면 데이터 목록 을 옮 겨 다 녀 야 합 니 다.
절대 경로 에서 a 태그 속성 이 링크 2.html 와 같은 내용 을 찾 았 습 니 다.
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]/text()')
print(html_data)
for i in html_data:
print(i)
인쇄:['second item']
second item
7.위 에서 우 리 는 모든 것 이 절대적 인 경 로 를 찾 았 습 니 다.(모든 것 은 뿌리 에서 찾 습 니 다)아래 에서 우 리 는 상대 적 인 경 로 를 찾 습 니 다.예 를 들 어 모든 li 태그 아래 의 a 태그 내용 을 찾 습 니 다.
html = etree.HTML(wb_data)
html_data = html.xpath('//li/a/text()')
print(html_data)
for i in html_data:
print(i)
인쇄:['first item', 'second item', 'third item', 'fourth item', 'fifth item']
first item
second item
third item
fourth item
fifth item
8.위 에서 우 리 는 절대 경 로 를 사용 하여 모든 a 라벨 의 속성 이 href 속성 값 과 같은 것 을 찾 았 습 니 다./-절대 경 로 를 이용 합 니 다.아래 에서 우 리 는 상대 경 로 를 사용 하여 l 상대 경로 에서 li 라벨 아래 의 a 라벨 아래 의 href 속성 값 을 찾 았 습 니 다.주의 하 세 요.a 라벨 뒤에 쌍/가 필요 합 니 다.
html = etree.HTML(wb_data)
html_data = html.xpath('//li/a//@href')
print(html_data)
for i in html_data:
print(i)
인쇄:['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
link1.html
link2.html
link3.html
link4.html
link5.html
9.상대 적 인 경로 에서 절대적 인 경로 에서 특정한 속성 을 찾 는 방법 과 비슷 하고 같다 고 할 수 있다.
html = etree.HTML(wb_data)
html_data = html.xpath('//li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]')
print(html_data)
for i in html_data:
print(i.text)
인쇄:[
second item
10.마지막 li 태그 에 있 는 a 태그 의 href 속성 찾기
html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()]/a/text()')
print(html_data)
for i in html_data:
print(i)
인쇄:['fifth item']
fifth item
11.마지막 두 번 째 li 태그 에 있 는 a 태그 의 href 속성 찾기
html = etree.HTML(wb_data)
html_data = html.xpath('//li[last()-1]/a/text()')
print(html_data)
for i in html_data:
print(i)
인쇄:['fourth item']
fourth item
12.특정한 페이지 의 특정한 탭 의 xpath 경 로 를 추출 하면 다음 그림 과 같 습 니 다.
//*[@id="kw"]
설명:상대 경 로 를 사용 하여 모든 탭 을 찾 습 니 다.속성 id 는 kw 의 탭 과 같 습 니 다.상용
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from scrapy.selector import Selector, HtmlXPathSelector
from scrapy.http import HtmlResponse
html = """<!DOCTYPE html>
<html>
<head lang="en">
<meta charset="UTF-8">
<title></title>
</head>
<body>
<ul>
<li class="item-"><a id='i1' href="link.html" rel="external nofollow" rel="external nofollow" >first item</a></li>
<li class="item-0"><a id='i2' href="llink.html" rel="external nofollow" >first item</a></li>
<li class="item-1"><a href="llink2.html" rel="external nofollow" rel="external nofollow" >second item<span>vv</span></a></li>
</ul>
<div><a href="llink2.html" rel="external nofollow" rel="external nofollow" >second item</a></div>
</body>
</html>
"""
response = HtmlResponse(url='http://example.com', body=html,encoding='utf-8')
# hxs = HtmlXPathSelector(response)
# print(hxs)
# hxs = Selector(response=response).xpath('//a')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[2]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[@id]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[@id="i1"]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[@href="link.html" rel="external nofollow" rel="external nofollow" ][@id="i1"]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[contains(@href, "link")]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[starts-with(@href, "link")]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]/text()').extract()
# print(hxs)
# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]/@href').extract()
# print(hxs)
# hxs = Selector(response=response).xpath('/html/body/ul/li/a/@href').extract()
# print(hxs)
# hxs = Selector(response=response).xpath('//body/ul/li/a/@href').extract_first()
# print(hxs)
# ul_list = Selector(response=response).xpath('//body/ul/li')
# for item in ul_list:
# v = item.xpath('./a/span')
# #
# # v = item.xpath('a/span')
# #
# # v = item.xpath('*/a/span')
# print(v)
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.