파충류 노트 정리
xpath 선택
xpath('//*')
xpath('//li/a')
xpath('//a[@href="link4.html"]/../@class')
xpath('//a[@href="link4.html"]/parent::*/@class')
xpath('//li[1]/a/text()')
xpath('//li[last()]/a/text()')
xpath('//li[position()<3]/a/text()')
xpath('//li[last()-2]/a/text()')
xpath('//li[1]/ancestor::*')
xpath('//li[1]/ancestor::div')
xpath('//li[1]/attribute::*')
xpath('//li[1]/child::a[@href="link1.html"]')
xpath('//li[1]/descendant::span"]')
xpath('//li[1]/following::*[2]"]')
xpath('//li[1]/following-sibling::*"]')
xpath('//li[contains(@class,"li")]/a/text()')
xpath('//div[contains(@class,"para") and contains(@label-module,"para")]/text()')
xpath('//li[@class="item-0"]/a/text()')
xpath('//li/a/@href')
BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,lxml)
list(soup.a.parents)[0]
list(soup.a.parents)[0].attrs['class']
soup.find_all(name='ul')
for ul in soup.find_all(name='ul')
for li in ul.find_all(name='li')
print(li.string)
soup.find_all(attrs={'id':'list-1'}
soup.find_all(class_='element')
soup.find_all(text=re.compile('link'))
soup.select('.panel .panel-heading')
for ul in soup.select('ul')
print(ul.select('li'))
for ul in soup.select('ul')
print(ul['id'])
print(ul.attrs['id'])
for li in soup.select('li')
print(li.get_text())
print(li.string)
pyquery
doc = pq(filename='demo.html')
doc('#content .list li')
items = doc('.list')
lis = items.find('li')
items = doc('.list')
lis = items.children('li')
items = doc('.list')
lis = items.parent('li')
lis = doc('li').items()
for i in lis:
print(i)
a = doc('.item-0.active a')
print(a.attr('href'))
print(a.attr.href)
for item in a.items():
print(item.attr('href'))
doc = pq()
a = doc('.item-0.active a')
print(a.text)
print(a.html())
doc = pq()
li = doc('.item-0.active')
li.removeClass('active')
li.addClass('active')
doc = pq()
li = doc('.item-0.active')
#attr() , ,
li.attr('name','link')
# ,
li.text('change item')
li.html('changed item')
doc = pq()
#
li = doc('li:first-child')
#
li = doc('li:last-child')
#
li = doc('li:nth-child(2)')
#
li = doc('li:gt(2)')
#
li = doc('li:nth-child(2n)')
#
li = doc('li:contains(second)')
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
scrapy의spider에 매개 변수를 전달하는 몇 가지 방법때때로 프로젝트의 실제 수요에 따라spider에 파라미터를 전달하여spider의 행위를 제어해야 한다. 예를 들어 사용자가 제출한 URL에 따라spider가 기어오르는 사이트를 제어해야 한다.이런 상황에서 두 가지 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.