데이터 과학 100개 노크를 Docker 없이 SQL 없이 이동(Python, R)

소개



지난달 데이터 과학 100개 노크(구조화 데이터 가공편)가 나와 데이터 분석의 교재가 또 하나 충실했다는 느낌이 있습니다만, 이 문제집은 Docker등의 툴에 어느 정도 익숙하지 않으면 임할 수 없는 설계에 되어있는 것 같습니다.



출처 : htps : // 기주 b. 이 m / te ぇ - 팬 - data S Shienchi st - shi / ty / 100k cks-p p ss / bb b / rr / c / r / c / 100k cks_ 어서. pdf

확실히 Docker는 데이터 분석 분야에서도 중요한 기술이 되고 있기 때문에 엔지니어가 아니어도 기억할 가치는 충분하고 SQL 등 DB 주변의 지식도 물론 중요합니다. 다만, Python이나 R를 사용한 분석을 조금 시험해보고 싶은 것 뿐이라고 하는 경우에는 Docker나 SQL에도 동시에 임하려고 하면 부하가 너무 무거울지도 모릅니다.

이 기사에서는, 「일단 수중에서 CSV의 데이터 핸들링을 할 수 있으면 OK」정도의 스탠스의 방향으로, Docker도 DB도 SQL도 사용하지 않고 100개 노크를 풀기 위한 환경의 정돈 방법에 대해 정리해 보겠습니다.

전제



  • pip나 Anaconda로 넣은 JupyterLab를 사용할 수 있다

    JupyterLab은 Jupyter Notebook 등으로 대체할 수 있지만 여기에서는 JupyterLab을 추천합니다.

  • 방법



  • GitHub 리포지토리 에서 zip 파일 다운로드 및 압축 해제(또는 git clone)



  • JupyterLab에서 압축이 풀린 폴더에서 docker > work로 이동하여 preprocess_knock_Python.ipynb 또는 preprocess_knock_R.ipynb를 엽니 다.


  • 첫 번째 셀의 코드를 다음과 같이 다시 작성하여 실행

  • 파이썬의 경우
    import pandas as pd
    
    df_customer = pd.read_csv('data/customer.csv')
    df_category = pd.read_csv('data/category.csv')
    df_product = pd.read_csv('data/product.csv')
    df_receipt = pd.read_csv('data/receipt.csv')
    df_store = pd.read_csv('data/store.csv')
    df_geocode = pd.read_csv('data/geocode.csv')
    

    R의 경우 (추가로 R의 환경 정비가 필요)
    df_customer <- read.csv("data/customer.csv")
    df_category <- read.csv("data/category.csv")
    df_product <- read.csv("data/product.csv")
    df_receipt <- read.csv("data/receipt.csv")
    df_store <- read.csv("data/store.csv")
    df_geocode <- read.csv("data/geocode.csv")
    

    이상으로 100개 노크를 풀기 시작할 수 있습니다.

    결론



    Docker는 중요한 기술입니다만, 배우기 위해 그렇게 시간이 걸리는 것 외에 PC상에서 움직이기에도 어느 정도의 메모리등이 필요하게 됩니다. 데이터 과학 100개 노크의 경우에는 Docker가 DB와 어떻게 관련되는지 알 필요도 나옵니다.

    그 근처에서 좌절할 것 같은 분의 참고가 되면, 라고 생각하는 투고였습니다.

    보충



    JupyterLab 대신 Colab을 사용하는 방법도있는 것 같습니다.

    데이터 과학 100개 노크를 공동체에서 하고 싶다 - Qiita

    좋은 웹페이지 즐겨찾기