COCO'S 조식 바이킹 실시 점포 일람 PDF 파일을 취득해 CSV로 한다

Change Log



(2020/10/13, 22:50) default-jdk 불필요합니다. 삭제했습니다.
(2020/9/24, 05:30) 정렬 전의 sjis판 이미지를 추가했습니다.
(2020/9/24, 05:30) sort & uniq 처리 스크립트를 조금 수정했습니다.
(2020/9/25, 05:00) sort & uniq 처리 스크립트를 조금 수정했습니다.

소개



COCO'S 조식 뷔페 실시 점포 일람 의 PDF 파일을 취득해 CSV로 해 봅니다.


또한


  • 이 기사에서는 RaspberryPi 4 및 Python3.7.3에서 실행됩니다. 하지만 거기는 큰 의존 지점이 아니며 대부분의 환경에서 움직일 것입니다.
  • 또, 출력 결과 확인은 편한 Windows상의 Excel과 텍스트 에디터로 실시하고 있습니다만, 거기도 좋게.

  • 준비 어디서나 좋다


    $ pwd
    /home/dk4130523/scripts/cocos
    $ mkdir -p pdf
    $ mkdir -p csv
    $ pip3 install tabula-py
    

    스크립트



    팬더 s2x. py


    import pandas as pd
    import tabula
    
    for p in range(1,5):
        dfs = tabula.read_pdf("./pdf/bvshoplist.pdf", lattice = True, pages = p)
        for df in dfs:
            df.to_csv("./csv/bvshoplist.sjis.csv", index = None, mode = 'a', encoding = 'shift_jis')
            df.to_csv("./csv/bvshoplist.utf8.csv", index = None, mode = 'a', encoding = 'utf-8')
    

    게이 tb 희귀 k-fast. sh


    #!/bin/bash
    # download latest pdf file
    wget -O ./pdf/bvshoplist.pdf https://www.cocos-jpn.co.jp/menu_pdf/bvshoplist.pdf
    
    # convert to csv by pandas and tabula
    rm -rf ./csv/bvshoplist.csv
    python3 ./pandas2x.py
    
    # sort and uniq if required
    cat ./csv/bvshoplist.sjis.csv | sort -t. -k1,1n -k2,2n | uniq > ./csv/bvshoplist.u_s.sjis.csv
    cat ./csv/bvshoplist.utf8.csv | sort -t. -k1,1n -k2,2n | uniq > ./csv/bvshoplist.u_s.utf8.csv
    
    # copy to some nice location
    cp ./csv/bvshoplist.unique.sorted.*.csv /home/pi/Public/cocos/
    

    chmod +x


    $ chmod +x ./getbreakfast.sh
    

    실행 총 20초 정도


    $ ./getbreakfast.sh
    --2020-09-23 17:32:10--  https://www.cocos-jpn.co.jp/menu_pdf/bvshoplist.pdf
    Resolving www.cocos-jpn.co.jp (www.cocos-jpn.co.jp)... 52.197.112.230, 52.68.53.187
    Connecting to www.cocos-jpn.co.jp (www.cocos-jpn.co.jp)|52.197.112.230|:443... connected.
    HTTP request sent, awaiting response... 200 OK
    Length: 524703 (512K) [application/pdf]
    Saving to: ‘./pdf/bvshoplist.pdf’
    
    ./pdf/bvshoplist.pdf
    100%[================>] 512.41K  1.39MB/s    in 0.4s    
    
    2020-09-23 17:32:10 (1.39 MB/s) - ‘./pdf/bvshoplist.pdf’ saved [524703/524703]
    $
    

    출력 결과 확인



    저장 대상



    (내 용도로는 정렬 및 독특한 것만 있으면 충분합니다. 정렬 및 독특하기 전의 것도 원래의 장소에 남아 있습니다. 같은 223 줄임을 확인했습니다.)


    sjis 정렬 전





    sjis 정렬 후 라즈파이에서 자동 정렬 한 것을 Excel에서 열 수있는 상태





    utf8





    오시마



    이 기사의 소개는 여기입니다. 이 앞은 용도에 따라 적절히. 좋았어요. 😺💕

    참고



    대단히 참고로 했습니다. 고마워요. 😺💕
    【자동화】 PDF 내의 테이블을 Python으로 추출

    좋은 웹페이지 즐겨찾기