푸른 하늘 문고에서 목표 작가의 작품 취득
개요
NLP 놀이 용 파일을 가져옵니다.
git clone
1. github에서 푸른 하늘 문고의 소스 코드를 통째로 git clone
언제부터인가 github 로 관리하기 시작한 것 같다.
Clone or download
에서 리포지토리 주소 복사복제합니다. 15 GB 이기 때문에 주의.
$ cd $適当なディレクトリ
$ git clone [email protected]:aozorabunko/aozorabunko.git
2. WEB 페이지에서 목적 작가의 ID 찾아 디렉토리에 도착한다
웹 페이지 에서 좋아하는 작가의 작품의 페이지에 어떻게든 도착한다.
URL의 "~cards"의 직후에 작가를 나타내는 ID가 들어 있기 때문에 카피.
이미지로 말하면 000879
ID 파악하면 다음 디렉토리로 이동.
cd $適当なディレクトリ/aozorabunko/cards/$作家を示すID/files/
3. unar에서 unar
해동한다.
압축을 풀 수 있으면 unar가 아니어도 좋습니다.
$ mkdir $解凍ファイル用ディレクトリ
$ brew install unar
$ find . -name '*.zip' -exec unar {} -o $解凍ファイル用ディレクトリ \;
4. xattr에서 xattr
뭔가 com.apple.FinderInfo 라는 속성이 붙어 있다.
기분 나쁘기 때문에 삭제.
$ # なかったらインストール
$ brew xattr
$ # まとめて削除
$ for f in `ls -1 $解凍先ディレクトリ`;
$ do
$ xattr -d com.apple.FinderInfo ${f};
$ done
5. nkf 에서 nkf
이것으로 준비 만단!
아 아 아 아 아 아! ! ! ! ! ! !
문자 코드 수정
$ cd $解凍先ディレクトリ
$ mkdir ../$UTF8用ディレクトリ
$ for f in `ls -1`;
$ do
$ nkf -u $f > ../$UTF8用ディレクトリ/$f;
$ done
고치다
그리고는 기호로 전처리.
Reference
이 문제에 관하여(푸른 하늘 문고에서 목표 작가의 작품 취득), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/miorgash/items/be24c816c97d5162e68d텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)