스크래핑: 웹사이트를 로컬로 저장
스크래핑: 웹사이트를 로컬로 저장
비망록. 백업 목적만.
태양 전자파? 태양 자기 폭풍? 같은 세계적인 정전에 대비. microCMS에는 백업 기능이 없기 때문에 실시.
코드
import os
from urllib.request import *
# 記事カテゴリー毎のURL
#base_url = "https://benzoinfojapan.org/patients-article/"
#base_url = "https://benzoinfojapan.org/doctors-article/"
base_url = "https://benzoinfojapan.org/medias-article/"
# 保存先ファイル名接頭詞
#prefix = "patients-article"
#prefix = "doctors-article"
prefix = "medias-article"
num = 1
# 各カテゴリ記事上限値をwhile num <= Xに設定. 以下2020年10月現在値.
# patientsの場合10
# patientsの場合26
# patientsの場合13
# ↓↓
while num <= 13:
print("ダウンロード開始")
# HTMLファイル 保存先のディレクトリ
save_dir = os.path.dirname(os.path.abspath(__file__)) + "/html/"
# 存在しなければディレクトリ作成
if not os.path.exists(save_dir):
os.mkdir(save_dir)
url=base_url + str(num)
# 保存先ファイルのパス
num_str = str(num)
save_file = save_dir + prefix + num_str + ".html"
urlretrieve(url, save_file)
# doctors-articleの記事が22番目抜けてるので必要な処理^^;
if num != 11:
num += 1
else:
num += 2
※ 에러 처리 없음
사용법
세 가지 범주별로 매개변수를 변경하여 위의 코드를 세 번 실행합니다.
변경 개소는 이하만.
import os
from urllib.request import *
# 記事カテゴリー毎のURL
#base_url = "https://benzoinfojapan.org/patients-article/"
#base_url = "https://benzoinfojapan.org/doctors-article/"
base_url = "https://benzoinfojapan.org/medias-article/"
# 保存先ファイル名接頭詞
#prefix = "patients-article"
#prefix = "doctors-article"
prefix = "medias-article"
num = 1
# 各カテゴリ記事上限値をwhile num <= Xに設定. 以下2020年10月現在値.
# patientsの場合10
# patientsの場合26
# patientsの場合13
# ↓↓
while num <= 13:
print("ダウンロード開始")
# HTMLファイル 保存先のディレクトリ
save_dir = os.path.dirname(os.path.abspath(__file__)) + "/html/"
# 存在しなければディレクトリ作成
if not os.path.exists(save_dir):
os.mkdir(save_dir)
url=base_url + str(num)
# 保存先ファイルのパス
num_str = str(num)
save_file = save_dir + prefix + num_str + ".html"
urlretrieve(url, save_file)
# doctors-articleの記事が22番目抜けてるので必要な処理^^;
if num != 11:
num += 1
else:
num += 2
결과
페이지 당 HTML 파일로 로컬 드라이브에 저장됩니다.
이상.
Reference
이 문제에 관하여(스크래핑: 웹사이트를 로컬로 저장), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/atomyah/items/926d376d2142cf1cde9d텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)