데이터 과학 100개 노크(구조화 데이터 가공편)의 환경 구축(Windows10)

소개



일반 사단법인 데이터 사이언티스트 협회가 구조화 데이터의 가공을 실천적으로 배울 수 있는 무료 학습 환경 「데이터 과학 100개 노크(구조화 데이터 가공편)」를 GitHub에 공개 했습니다.
이 기사는 초학자도 무료 학습 환경을 구축 할 수 있도록 소개 절차에 대해 자세히 설명했습니다.
(빌드하는 실행 환경은 아래 그림이 됩니다.)


전제 조건(Windows10)



  • Docker Desktop for Windows
    ※ 시작하지 않으면 Hyper-V가 "사용 안 함"일 수 있으므로 "활성화"로 설정.

  • Git for Windows
    ※설치시의 디폴트 설정인 개행 코드 변경을 「무효」로 설정.
    ※본 기사의 커맨드는 PowerShell로 실행·검증 완료.
  • > git config --global core.autocrlf input
    

    환경 구축



    학습 환경용 디렉토리(이번에는 dss)를 작성하고 100개 노크의 리포지토리를 클론한다.
    그런 다음 100 노크 디렉토리로 이동하고 docker-compose 명령을 사용하여 컨테이너를 만듭니다. (10분 전후의 시간이 걸린다.)
    ※환경 구축중에 경고의 팝업이 표시되는 경우, Docker의 로컬 PC에 대한 액세스 권한이 없을 가능성이 있기 때문에 「Share it」를 선택해 액세스 권한을 부여한다.
    ※상기의 방법으로 기동할 수 없는 경우, Docker의 Settings로 파일 공유가 설정되어 있는지를 확인한다.
    > mkdir dss
    > cd dss
    > git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git
    > cd 100knocks-preprocess
    > docker-compose up -d --build
    

    기동이 끝난 컨테이너를 확인해, 「dss-notebook」과 「dss-postgres」의 출력을 확인할 수 있으면 환경 구축이 성공.
    > docker ps
    
    CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS              PORTS                    NAMES
    b35f99d4148a        dss-notebook        "tini -g -- start-no…"   23 seconds ago      Up 22 seconds       0.0.0.0:8888->8888/tcp   dss-notebook
    3cb559c7f66d        dss-postgres        "docker-entrypoint.s…"   27 seconds ago      Up 26 seconds       0.0.0.0:5432->5432/tcp   dss-postgres
    

    사용법



    브라우저에서 아래의 URL에 액세스하면, 구축한 Jupyter의 환경에 액세스 할 수 있다.
    http://localhost:8888
    
    work 디렉토리 아래에는 구조화 된 데이터 처리 연습 문제의 .ipynb 파일이 있습니다.
    필요 라이브러리의 임포트나 가공전의 데이터 취득은, 최초의 셀에 기술 완료.
    연습 문제에 적합한 처리를 빈 셀에 입력하여 실행하여 학습을 진행시킨다.

    연습 문제에 대한 대답은 work/answer 디렉토리에 .ipynb 파일이 있습니다.
    그 때문에, 연습 문제의 파일로 회답한 처리의 정부를 확인하면서 작업 가능.


    학습 환경 정지 및 시작



    아래의 커맨드로 구축한 환경을 정지 가능.
    > docker-compose stop
    

    또, 2회째 이후에 기동하는 경우는, 이하의 커멘드로 기동 가능.
    > docker-compose start
    

    보충사항



    구축한 환경의 응답이 느린 경우



    Windows용 Docker Desktop Settings에서 Resources의 Memory 값을 변경합니다.
    권장 사항은 4.00GB 이상입니다.


    8888 포트를 사용하는 경우



    만약, 로컬 호스트의 8888 포트를 다른 개발 환경(LAMP등)에서 이용하고 있는 경우는, docker-compose.yml를 아래와 같이 변경(notebook의 ports의 값을 변경)하는 것으로 대응 가능.

    docker-compose.yml
      notebook:
        ports:
          - "888:8888"
    

    상기의 경우, 이하의 URL로 액세스 가능하게 된다.
    http://localhost:888
    

    요약



    Windows10 환경에 있어서, 데이터 사이언스 100개 노크(구조화 데이터 가공편)의 환경 구축 순서를 기재했습니다.
    상기의 순서로 불명점이나 의문점등이 있으면, 코멘트 받을 수 있으면 다행입니다.

    참고 링크



    데이터 과학 100개 노크 가이드

    좋은 웹페이지 즐겨찾기