Scrapy로 스크래핑(그 1 준비편)
그 2 사전 조사편
Git 리포지토리를 만들고 빈 프로젝트를 커밋하는 과정을 간략하게 요약합니다.
개발 환경
프로젝트 준비
파이썬 가상 환경을 만듭니다.
가상 환경명은 임의입니다만 이번은 venv로 했습니다.
$ cd <リポジトリ(=プロジェクト)のルートディレクトリ>
$ python -m venv venv
가상 환경으로 들어가서 필요한 라이브러리를 설치합니다.
$ . venv/bin/activate
(venv) $ pip install --upgrade pip
(venv) $ pip install scrapy
현재 디렉토리를 루트로 설정하여 Scrapy 프로젝트를 만듭니다.
(venv) $ scrapy startproject <プロジェクト名> .
(venv) $ tree -L 3
.
├── <プロジェクト名>
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ └── __init__.py
├── scrapy.cfg
└── venv
(略)
이 시점에서 PyCharm 관리 파일은 .idea 디렉토리 아래에 만들어집니다.
(.idea 아래의 일부 파일을 Git 관리 외부로 설정하기 위해 설정이 올바르게 수행되는지 확인하십시오.
JetBrains.gitignore 의 말미에
/venv/
의 엔트리를 추가합니다.(PyCharm의 .ignore 플러그인을 사용하면 마우스 조작만으로도 설정할 수 있습니다.)
다른 실행 환경을 구축할 때도 생각해 pip의 requirements.txt를 작성해 둡니다.
이것으로 작업은 거의 끝이므로 가상 환경에서 빠져 나갑니다.
(venv) $ pip freeze > requirements.txt
(venv) $ deactivate
$
커밋하고 푸시합니다.
커밋할 때 .gitignore에 정의한 파일 [^1]이 포함되어 있지 않은지 확인합니다.
$ git add .
$ git commit
$ git push
책 소개
이 책을 매우 이해하기 쉽고 크롤링 스크래핑을 수행하는 데 필요한 지식을 배울 수 있습니다.
파이썬 크롤링 & 스크래핑 [증보 개정판]
[^1]: 특히 .idea/workspace.xml 및 venv 디렉토리 아래의 모든 파일
Reference
이 문제에 관하여(Scrapy로 스크래핑(그 1 준비편)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/ezotaka/items/f32f8fca8526bd137253
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Scrapy로 스크래핑(그 1 준비편)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ezotaka/items/f32f8fca8526bd137253텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)