데이터 과학 100개 노크를 공동체에서 하고 싶다

데이터 분석 연습 콘텐츠 「데이터 과학 100개 노크(구조화 데이터 가공편)」이 데이터 과학자 협회에서 공개되었습니다.
움직이려면 Docker의 조작이 필요하기 때문에, 쉽게 시작하고 보고 싶은 방향으로 Colaboratory에서 이동하는 방법을 남겨 둡니다.

1. 데이터 다운로드



먼저 적절한 노트북을 만들어 Colaboratory를 엽니다.
열리면 다음 명령을 실행하여 GoogleDrive에 데이터를 다운로드합니다.
from google.colab import drive
drive.mount('/content/drive')

!git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git 'drive/My Drive/100knocks-preprocess'

드라이브 마운트를 처음 실행하는 경우, 실행한 셀 아래에 다음과 같은 표시가 나타납니다. URL을 클릭하여 GoogleColaboratory의 드라이브에 대한 액세스를 허용합니다.

마지막으로 "이 코드를 복사하여 응용 프로그램으로 전환하여 붙여 넣으십시오."라는 메시지가 표시되므로 복사 한 코드를 위의 "Enter your authorization code :"필드에 붙여 넣으십시오.
내 드라이브로 돌아가면 "100knocks-preprocess"라는 폴더를 확인할 수 있다고 생각합니다.
잘하면이 노트북은 더 이상 사용하지 않습니다.

2. 내 드라이브에서 Jupyter Notebook 열기



notebook 파일은 다음 디렉토리에 저장됩니다.

preprocess_knock_Python.ipynb를 GoogleColabratory에서 열어 보겠습니다.

3. 움직여 보자



첫 번째 셀을 그대로 실행하면 오류가 발생하므로 라이브러리 가져 오기 만 수행하면 아래 코드로 데이터를 읽으십시오.
def get_df(filename):
  path = 'drive/My Drive/100knocks-preprocess/docker/work/data'
  return pd.read_csv(os.path.join(path, filename))

df_customer = get_df('customer.csv')
df_category = get_df('category.csv')
df_geocode = get_df('geocode.csv')
df_product = get_df('product.csv')
df_receipt = get_df('receipt.csv')
df_store = get_df('store.csv')

덧붙여서, 이하의 폴더 부하에 이 컨텐츠의 목적 등을 설명한 pdf 파일이 있으므로, 임하기 전에 읽어 보면 좋을 것 같네요.100knocks-preprocess/docker/dock
이것으로 준비가 완료
시간을 내어 실행하면 Drive와의 연결이 끊어 버리는 일이 있을지도 모릅니다. (없을지도...) 그렇다면 다음 코드를 다시 실행하거나 사이드 바에서 드라이브를 마운트하고 다시 데이터를 읽으십시오.
from google.colab import drive
drive.mount('/content/drive')

이상



이 기사를 써 두고 있습니다만, Docker로의 환경 구축도 그렇게 어렵지 않고, 할 수 있으면 도움이 되는 일도 많기 때문에, 이것을 기회에 도전하는 것도 좋다고 생각합니다. Mac에서 빌드하는 방법은 여기 의 기사가 좋을 것 같습니다. 환경이 만들어지면 SQL 연습도 할 수 있네요!

좋은 웹페이지 즐겨찾기