COCO'S 조식 바이킹 실시 점포 일람 PDF 파일을 취득해 CSV로 한다
Change Log
(2020/10/13, 22:50) default-jdk 불필요합니다. 삭제했습니다.
(2020/9/24, 05:30) 정렬 전의 sjis판 이미지를 추가했습니다.
(2020/9/24, 05:30) sort & uniq 처리 스크립트를 조금 수정했습니다.
(2020/9/25, 05:00) sort & uniq 처리 스크립트를 조금 수정했습니다.
소개
COCO'S 조식 뷔페 실시 점포 일람 의 PDF 파일을 취득해 CSV로 해 봅니다.
또한
준비 어디서나 좋다
$ pwd
/home/dk4130523/scripts/cocos
$ mkdir -p pdf
$ mkdir -p csv
$ pip3 install tabula-py
스크립트
팬더 s2x. py
import pandas as pd
import tabula
for p in range(1,5):
dfs = tabula.read_pdf("./pdf/bvshoplist.pdf", lattice = True, pages = p)
for df in dfs:
df.to_csv("./csv/bvshoplist.sjis.csv", index = None, mode = 'a', encoding = 'shift_jis')
df.to_csv("./csv/bvshoplist.utf8.csv", index = None, mode = 'a', encoding = 'utf-8')
게이 tb 희귀 k-fast. sh
#!/bin/bash
# download latest pdf file
wget -O ./pdf/bvshoplist.pdf https://www.cocos-jpn.co.jp/menu_pdf/bvshoplist.pdf
# convert to csv by pandas and tabula
rm -rf ./csv/bvshoplist.csv
python3 ./pandas2x.py
# sort and uniq if required
cat ./csv/bvshoplist.sjis.csv | sort -t. -k1,1n -k2,2n | uniq > ./csv/bvshoplist.u_s.sjis.csv
cat ./csv/bvshoplist.utf8.csv | sort -t. -k1,1n -k2,2n | uniq > ./csv/bvshoplist.u_s.utf8.csv
# copy to some nice location
cp ./csv/bvshoplist.unique.sorted.*.csv /home/pi/Public/cocos/
chmod +x
$ chmod +x ./getbreakfast.sh
실행 총 20초 정도
$ ./getbreakfast.sh
--2020-09-23 17:32:10-- https://www.cocos-jpn.co.jp/menu_pdf/bvshoplist.pdf
Resolving www.cocos-jpn.co.jp (www.cocos-jpn.co.jp)... 52.197.112.230, 52.68.53.187
Connecting to www.cocos-jpn.co.jp (www.cocos-jpn.co.jp)|52.197.112.230|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 524703 (512K) [application/pdf]
Saving to: ‘./pdf/bvshoplist.pdf’
./pdf/bvshoplist.pdf
100%[================>] 512.41K 1.39MB/s in 0.4s
2020-09-23 17:32:10 (1.39 MB/s) - ‘./pdf/bvshoplist.pdf’ saved [524703/524703]
$
출력 결과 확인
저장 대상
(내 용도로는 정렬 및 독특한 것만 있으면 충분합니다. 정렬 및 독특하기 전의 것도 원래의 장소에 남아 있습니다. 같은 223 줄임을 확인했습니다.)
sjis 정렬 전
sjis 정렬 후 라즈파이에서 자동 정렬 한 것을 Excel에서 열 수있는 상태
utf8
오시마
이 기사의 소개는 여기입니다. 이 앞은 용도에 따라 적절히. 좋았어요. 😺💕
참고
대단히 참고로 했습니다. 고마워요. 😺💕
【자동화】 PDF 내의 테이블을 Python으로 추출
Reference
이 문제에 관하여(COCO'S 조식 바이킹 실시 점포 일람 PDF 파일을 취득해 CSV로 한다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/dk4130523/items/b03be4a43afa606cb01b텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)