입문급 파충류 콩잎 캡처 top250 영화 정보
3583 단어 파충류
import requests
import lxml.html
from bs4 import BeautifulSoup
import re
import bs4
from pymongo import MongoClient
def req(url, param):
resp = requests.get(url, params=param).text
return resp
def get_data(data):
#
source_soup = BeautifulSoup(data, 'html.parser')
data_ol = source_soup.ol
films = []
for tag_li in data_ol:
if isinstance(tag_li, bs4.element.Tag):
datas = lxml.html.fromstring(str(tag_li.contents))
#
names = []
name1 = datas.xpath('//span[@class="title"]/text()')
name2 = datas.xpath('//span[@class="other"]/text()')
names.append(name1)
names.append(name2)
#
info = datas.xpath('//p[@class=""]/text()')
#
star = datas.xpath('//span[@class="rating_num"]/text()')
num = re.search('(.*)', str(data_ol.contents)).group(1)
#
quote = datas.xpath('//span[@class="inq"]/text()')
#
film_info = {
'name': names,
'info': info,
'star': star,
'num': num,
'quote': quote
}
films.append(film_info)
return films
cli = MongoClient('localhost', 27017)
db = cli.films
for i in range(1, 11):
param = {
'start': (i - 1) * 25,
'filter': ""
}
url = 'https://movie.douban.com/top250'
db.films2.insert(get_data(req(url, param)))
print("spider success")
bs4,lxml을 사용합니다.html.xpath,requests는 시청자 여러분의 많은 가르침을 바랍니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
python은 어떻게 파충류의 효율을 향상시킬 것인가단일 스레드 + 멀티태스킹 비동기 협동 협정 함수(특수 함수)를 정의할 때 async 수식을 사용합니다. 함수 호출 후 내부 문장은 즉시 실행되지 않고 협동 대상으로 되돌아옵니다. 퀘스트 대상 작업 대상 = 고급 협...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.