파충류 프로젝트 기록을 처음으로 완성하다
import os
import logging
import requests
from bs4 import BeautifulSoup
import re
logging.basicConfig(level=logging.INFO)
def store_star_img(star_url,store_star_dir):
star_text = requests.get(star_url).text
soup = BeautifulSoup(star_text,'lxml')
star_src = soup.select('.content-pic img')[0]['src']
file_name = star_src.split('/')[-1]
file_name = os.path.join(store_star_dir,file_name)
print(file_name)
headers = {
'Referer': star_url,
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
}
with open(file_name,'wb') as f:
star_content = requests.get(star_src,headers=headers).content
f.write(star_content)
def store_page_star(href,store_star_dir):
# href store_star_dir
url = 'http://www.mm131.com/mingxing'
star_text = requests.get(href).text
soup = BeautifulSoup(star_text,'lxml')
star_url = f'{href}'
picter_url = soup.find('div',class_='content-page').find_all('a')
for p_url in picter_url:
p_name = p_url.get_text()
p_name = re.sub('[\s:?]','',p_name)
p_href = p_url['href']
store_star_img(star_url,store_star_dir)
star_url = f'{url}/{p_href}'
def main(url):
store_dir = 'mingxing'
os.makedirs(store_dir,exist_ok=True)
# r= requests.get(url)
# r.encoding = 'gbk'
# home_txt = r.text
# ISO-98851 , text ,
r_text = requests.get(url).content.decode('gbk')
soup = BeautifulSoup(r_text,'lxml')
ahref_list = soup.find('dl',class_='list-left public-box').find_all('a',target='_blank')
for ahref in ahref_list:
starname = ahref.get_text()
starname = re.sub('[\s:?]','',starname)
href = ahref.attrs['href']
store_star_dir = os.path.join(store_dir,starname)
os.makedirs(store_star_dir,exist_ok=True)
logging.info(f' {starname} ')
store_page_star(href,store_star_dir)#
if __name__ == '__main__':
main_url = 'http://www.mm131.com/mingxing/'
r_text = requests.get(main_url).content.decode('gbk')
soup = BeautifulSoup(r_text,'lxml')
url_list = soup.find('dd',class_='page').find_all('a')
for url in url_list:
href = url.attrs['href']
href = f'{main_url}/{href}'
main(href)
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.