python 파충류 의 xpath 기본 사용 설명

12563 단어 pythonxpath파충
프로필
XPath 는 XML 문서 에서 정 보 를 찾 는 언어 입 니 다.XPath 는 XML 문서 에서 요소 와 속성 을 옮 겨 다 니 는 데 사용 할 수 있 습 니 다.XPath 는 W3C XSLT 표준 의 주요 요소 이 고 XQuery 와 XPointer 는 모두 XPath 표현 위 에 구축 되 었 다. 
설치

pip3 install lxml 
사용
1.가 져 오기

from lxml import etree 
2.기본 사용

from lxml import etree
wb_data = """
    <div>
      <ul>
         <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>

         <li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>

         <li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>

         <li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>

         <li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a>
       </ul>
     </div>

    """
html = etree.HTML(wb_data)
print(html)
result = etree.tostring(html)
print(result.decode("utf-8")) 
아래 의 결 과 를 보면 우리 프린터 html 는 사실 python 대상 이 고 etree.tostring(html)은 불완전 html 의 기본 적 인 표기 법 으로 팔 과 다리 가 부족 한 라벨 을 보완 했다.

 <Element html at 0x39e58f0>
<html><body><div>
      <ul>
         <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>

         <li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>

         <li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>

         <li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>

         <li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a>

       </li></ul>
     </div>
    </body></html> 
3.특정한 태그 의 내용(기본 사용)을 가 져 옵 니 다.주의 하 세 요.a 태그 의 모든 내용 을 가 져 옵 니 다.a 뒤에 정 슬 래 쉬 를 추가 하지 않 아 도 됩 니 다.그렇지 않 으 면 오 류 를 보고 합 니 다.
서법

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a')

print(html)

for i in html_data:

  print(i.text)

<Element html at 0x12fe4b8>

first item

second item

third item

fourth item

fifth item 

쓰기 2(내용 을 찾 아야 할 탭 뒤에/text()를 추가 하면 됩 니 다)

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/text()')

print(html)

for i in html_data:

  print(i) 

<Element html at 0x138e4b8>

first item

second item

third item

fourth item

fifth item 
4.html 파일 읽 기 열기

#  parse  html   

html = etree.parse('test.html')

html_data = html.xpath('//*')<br>#       ,    

print(html_data)

for i in html_data:

  print(i.text) 

html = etree.parse('test.html')

html_data = etree.tostring(html,pretty_print=True)

res = html_data.decode('utf-8')

print(res)

 

  :

<div>

   <ul>

     <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >first item</a></li>

     <li class="item-1"><a href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >second item</a></li>

     <li class="item-inactive"><a href="link3.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >third item</a></li>

     <li class="item-1"><a href="link4.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fourth item</a></li>

     <li class="item-0"><a href="link5.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" >fifth item</a></li>

   </ul>

</div> 

5.지정 한 경로 에서 a 탭 의 속성 을 인쇄 합 니 다(특정한 속성의 값 을 옮 겨 다 니 며 탭 의 내용 을 찾 을 수 있 습 니 다)

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a/@href')

for i in html_data:

  print(i)
인쇄:
link1.html
link2.html
link3.html
link4.html
link5.html
6.우 리 는 xpath 를 사용 하여 모두 하나의 Element Tree 대상 을 얻 었 다 는 것 을 알 고 있 기 때문에 내용 을 찾 으 려 면 데이터 목록 을 옮 겨 다 녀 야 합 니 다.
절대 경로 에서 a 태그 속성 이 링크 2.html 와 같은 내용 을 찾 았 습 니 다.

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]/text()')

print(html_data)

for i in html_data:

  print(i)
인쇄:
['second item']
second item
7.위 에서 우 리 는 모든 것 이 절대적 인 경 로 를 찾 았 습 니 다.(모든 것 은 뿌리 에서 찾 습 니 다)아래 에서 우 리 는 상대 적 인 경 로 를 찾 습 니 다.예 를 들 어 모든 li 태그 아래 의 a 태그 내용 을 찾 습 니 다.

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a/text()')

print(html_data)

for i in html_data:

  print(i)
인쇄:
['first item', 'second item', 'third item', 'fourth item', 'fifth item']
first item
second item
third item
fourth item
fifth item
8.위 에서 우 리 는 절대 경 로 를 사용 하여 모든 a 라벨 의 속성 이 href 속성 값 과 같은 것 을 찾 았 습 니 다./-절대 경 로 를 이용 합 니 다.아래 에서 우 리 는 상대 경 로 를 사용 하여 l 상대 경로 에서 li 라벨 아래 의 a 라벨 아래 의 href 속성 값 을 찾 았 습 니 다.주의 하 세 요.a 라벨 뒤에 쌍/가 필요 합 니 다.

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a//@href')

print(html_data)

for i in html_data:

  print(i)
인쇄:
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
link1.html
link2.html
link3.html
link4.html
link5.html
9.상대 적 인 경로 에서 절대적 인 경로 에서 특정한 속성 을 찾 는 방법 과 비슷 하고 같다 고 할 수 있다.

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]')

print(html_data)

for i in html_data:

  print(i.text)
인쇄:
[]
second item
10.마지막 li 태그 에 있 는 a 태그 의 href 속성 찾기

html = etree.HTML(wb_data)

html_data = html.xpath('//li[last()]/a/text()')

print(html_data)

for i in html_data:

  print(i)
인쇄:
['fifth item']
fifth item
11.마지막 두 번 째 li 태그 에 있 는 a 태그 의 href 속성 찾기 

html = etree.HTML(wb_data)

html_data = html.xpath('//li[last()-1]/a/text()')

print(html_data)

for i in html_data:

  print(i)
인쇄:
['fourth item']
fourth item
12.특정한 페이지 의 특정한 탭 의 xpath 경 로 를 추출 하면 다음 그림 과 같 습 니 다.

//*[@id="kw"] 
설명:상대 경 로 를 사용 하여 모든 탭 을 찾 습 니 다.속성 id 는 kw 의 탭 과 같 습 니 다.

상용

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from scrapy.selector import Selector, HtmlXPathSelector
from scrapy.http import HtmlResponse
html = """<!DOCTYPE html>
<html>
  <head lang="en">
    <meta charset="UTF-8">
    <title></title>
  </head>
  <body>
    <ul>
      <li class="item-"><a id='i1' href="link.html" rel="external nofollow" rel="external nofollow" >first item</a></li>
      <li class="item-0"><a id='i2' href="llink.html" rel="external nofollow" >first item</a></li>
      <li class="item-1"><a href="llink2.html" rel="external nofollow" rel="external nofollow" >second item<span>vv</span></a></li>
    </ul>
    <div><a href="llink2.html" rel="external nofollow" rel="external nofollow" >second item</a></div>
  </body>
</html>
"""
response = HtmlResponse(url='http://example.com', body=html,encoding='utf-8')
# hxs = HtmlXPathSelector(response)
# print(hxs)
# hxs = Selector(response=response).xpath('//a')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[2]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[@id]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[@id="i1"]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[@href="link.html" rel="external nofollow" rel="external nofollow" ][@id="i1"]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[contains(@href, "link")]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[starts-with(@href, "link")]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]')
# print(hxs)
# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]/text()').extract()
# print(hxs)
# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]/@href').extract()
# print(hxs)
# hxs = Selector(response=response).xpath('/html/body/ul/li/a/@href').extract()
# print(hxs)
# hxs = Selector(response=response).xpath('//body/ul/li/a/@href').extract_first()
# print(hxs)
 
# ul_list = Selector(response=response).xpath('//body/ul/li')
# for item in ul_list:
#   v = item.xpath('./a/span')
#   #  
#   # v = item.xpath('a/span')
#   #  
#   # v = item.xpath('*/a/span')
#   print(v)
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.

좋은 웹페이지 즐겨찾기