푸른 하늘 문고에서 목표 작가의 작품 취득

개요



NLP 놀이 용 파일을 가져옵니다.
  • 환경은 MacOSX Mojave 10.14.5 로컬입니다.
  • 절차:
  • github에서 푸른 하늘 문고 소스 코드를 통째로 git clone
  • WEB 페이지에서 목적 작가의 ID 찾아 디렉토리에 도착한다
  • unar에서 unar
  • xattr에서 xattr
  • nkf 에서 nkf


  • 1. github에서 푸른 하늘 문고의 소스 코드를 통째로 git clone



    언제부터인가 github 로 관리하기 시작한 것 같다.
    Clone or download 에서 리포지토리 주소 복사


    복제합니다. 15 GB 이기 때문에 주의.
    $ cd $適当なディレクトリ
    $ git clone [email protected]:aozorabunko/aozorabunko.git
    

    2. WEB 페이지에서 목적 작가의 ID 찾아 디렉토리에 도착한다



    웹 페이지 에서 좋아하는 작가의 작품의 페이지에 어떻게든 도착한다.
    URL의 "~cards"의 직후에 작가를 나타내는 ID가 들어 있기 때문에 카피.
    이미지로 말하면 000879



    ID 파악하면 다음 디렉토리로 이동.
    cd $適当なディレクトリ/aozorabunko/cards/$作家を示すID/files/
    

    3. unar에서 unar



    해동한다.
    압축을 풀 수 있으면 unar가 아니어도 좋습니다.
    $ mkdir $解凍ファイル用ディレクトリ
    $ brew install unar
    $ find . -name '*.zip' -exec unar {} -o $解凍ファイル用ディレクトリ \;
    

    4. xattr에서 xattr



    뭔가 com.apple.FinderInfo 라는 속성이 붙어 있다.
    기분 나쁘기 때문에 삭제.
    $ # なかったらインストール
    $ brew xattr
    $ # まとめて削除
    $ for f in `ls -1 $解凍先ディレクトリ`;
    $ do
    $     xattr -d com.apple.FinderInfo ${f};
    $ done
    

    5. nkf 에서 nkf



    이것으로 준비 만단!
    아 아 아 아 아 아! ! ! ! ! ! !



    문자 코드 수정
    $ cd $解凍先ディレクトリ
    $ mkdir ../$UTF8用ディレクトリ
    $ for f in `ls -1`;
    $ do
    $     nkf -u $f > ../$UTF8用ディレクトリ/$f;
    $ done 
    

    고치다


    그리고는 기호로 전처리.

    좋은 웹페이지 즐겨찾기