Scrapy로 스크래핑(그 1 준비편)

관련 기사
그 2 사전 조사편

Git 리포지토리를 만들고 빈 프로젝트를 커밋하는 과정을 간략하게 요약합니다.

개발 환경


  • 우분투 18.04.5 LTS (Bionic Beaver)
  • bash
  • Python 3.8.1
  • PyCharm 2020.3.2 (Professional Edition)

  • 프로젝트 준비


  • GitHub에서 새 리포지토리를 만듭니다.
  • 리포지토리를 clone합니다.

  • 파이썬 가상 환경을 만듭니다.
    가상 환경명은 임의입니다만 이번은 venv로 했습니다.
    $ cd <リポジトリ(=プロジェクト)のルートディレクトリ>
    $ python -m venv venv
    

  • 가상 환경으로 들어가서 필요한 라이브러리를 설치합니다.
    $ . venv/bin/activate
    (venv) $ pip install --upgrade pip
    (venv) $ pip install scrapy
    

  • 현재 디렉토리를 루트로 설정하여 Scrapy 프로젝트를 만듭니다.
    (venv) $ scrapy startproject <プロジェクト名> . 
    (venv) $ tree -L 3
    .
    ├── <プロジェクト名>
    │   ├── __init__.py
    │   ├── items.py
    │   ├── middlewares.py
    │   ├── pipelines.py
    │   ├── settings.py
    │   └── spiders
    │       └── __init__.py
    ├── scrapy.cfg
    └── venv
    (略)         
    
  • PyCharm을 시작하여 프로젝트의 루트 디렉토리를 엽니다.
    이 시점에서 PyCharm 관리 파일은 .idea 디렉토리 아래에 만들어집니다.
    (.idea 아래의 일부 파일을 Git 관리 외부로 설정하기 위해 설정이 올바르게 수행되는지 확인하십시오.
  • 루트 디렉토리에 .gitignore 파일을 만들어 Git 관리 외부 파일을 정의합니다.
    JetBrains.gitignore 의 말미에 /venv/ 의 엔트리를 추가합니다.
    (PyCharm의 .ignore 플러그인을 사용하면 마우스 조작만으로도 설정할 수 있습니다.)

  • 다른 실행 환경을 구축할 때도 생각해 pip의 requirements.txt를 작성해 둡니다.
    이것으로 작업은 거의 끝이므로 가상 환경에서 빠져 나갑니다.
    (venv) $ pip freeze > requirements.txt
    (venv) $ deactivate
    $
    

  • 커밋하고 푸시합니다.
    커밋할 때 .gitignore에 정의한 파일 [^1]이 포함되어 있지 않은지 확인합니다.
    $ git add .
    $ git commit
    $ git push
    

  • 책 소개



    이 책을 매우 이해하기 쉽고 크롤링 스크래핑을 수행하는 데 필요한 지식을 배울 수 있습니다.
    파이썬 크롤링 & 스크래핑 [증보 개정판]
    [^1]: 특히 .idea/workspace.xml 및 venv 디렉토리 아래의 모든 파일

    좋은 웹페이지 즐겨찾기