pandas 형식의 파일 로드

0. 본 기사의 내용



이 기사는 데이터 분석을위한 파일을 읽고 출력 방법을 메모로 남깁니다.

1. 참고 사이트



pandas에서 csv/tsv 파일 로드(read_csv, read_table)

2. jupyter notebook에서 CSV 로드


df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)

Tips 로드 타입



csv 파일의 읽기는 read_csv(), tsv 파일(탭 구분)의 읽기는 read_table()

Tips 데이터 구분



콤마도 탭도 아닌 데이터의 단락의 경우, 인수(sep 또는 delimiter)로 단락 문자의 지정이 가능.

Tips 읽기 데이터에 header가 없는 경우



표준으로 읽기 데이터의 1행째는 header로서 취급된다. 읽기 데이터에 header가 없는 경우는, header = None 라고 지정한다.

Tips 읽기 데이터에 header가 있는 경우



header의 read 위치를 header=2 등으로, 명시적으로 지정한다. 지정 개소 이전에는 읽히지 않는다.

Tips 읽기 데이터 형식



데이터 읽을 때, 데이터형을 지정하는 경우는 2가지 있다. 첫 번째는 dtype = str로 지정할 때. 이것은 모든 읽기 데이터에 적용됩니다. 두 번째는 dtype={'b': str, 'c': str}와 사전 형식으로 지정한다.

Tips 누락 값 처리



데이터를 읽을 때 누락 값으로 취급하고 싶다면 na_values = ["-","."]를 지정하여 누락 값을 처리 할 수 ​​있습니다.

3. Google Colaboratory에서 CSV 로드



1. 아이콘 클릭
2. Mount Drive 선택
3. 자동으로 이 부분이 추가된다(※)

3 이후. 다른 화면에서 Colaboratory와 제휴를 하는 계정을 요구하므로 선택. 그런 다음 ID가 발급되므로 ID를 복사하여 Colaboratory에 붙여넣습니다.



(※) 자동으로 추가되지 않는 경우는 이하의 커멘드를 기재
from google.colab import drive
drive.mount('/content/drive')
pd.reac_csv() 에서 다음과 같이 경로를 지정한다.
data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")

그 이후의 CSV 파일의 로드는 2. jupyther- notebookでのCSV読み込み 와 같다.

3.2 로컬에서 업로드



아래 명령을 사용하여 로컬에서 업로드 할 파일을 만들었습니다.
from google.colab import files
uploaded = files.upload()

import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))

XXX.csv는 업로드한 CSV 파일입니다.

4. Google 공동체로 CSV 파일 출력



출력 형식은 다음과 같습니다.
df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")

5. 브라우저를 통해 로컬로 다운로드(Google Colaboratory 및 Jupyter-notebook 공통)


df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')

Tips index 생략



데이터 출력시에 index 부분이 필요하지 않은 경우는 index = False 로 지정한다. kaggle에서 commit할 때 index 가 필요없는 경우가 많기 때문에 개인적으로 도움이 된다.

Tips colaboratory에서 다운로드



colaboratory에서 다운로드할 때는 다음을 읽어야 한다.
from google.colab import files

좋은 웹페이지 즐겨찾기