【초보자용】Google Colaboratory로 DataFrame에 Excel·CSV 파일을 읽어들인다

아무래도 CE 사보 입니다.

Qiita 첫 투고입니다.

파이썬을 사용하여 데이터 분석을 원합니다.

그럴 때, 초보자가 처음으로 집착하는 것이 「데이터의 로드」입니다.
(나도 처음은 집어들었습니다.)

분석하고 싶은 데이터가 테이블 데이터(Excel 데이터나 CSV 데이터 등)인 경우는 어떻게 하면 좋을까요?

이번에는 가장 자주 사용할 Excel 파일(.xlsx)과 CSV 파일(.csv)의 로딩을 간단하게 설명해 갑니다.

실제 코드는 단 두 줄입니다.
자꾸 끝내고 데이터 분석의 세계로 넘어갑니다.

개발 환경



· Google 공동체

Google 계정만 있으면 누구나 할 수 있는 Google 공동체를 사용합니다.

우선 필요한 라이브러리 가져오기



※사전에 Google Colaboratory에서 적당하게 신규 작성해 주세요.

Python에는 데이터 분석에 사용할 수 있는 수많은 라이브러리가 있습니다.

이것을 사용하면 비교적 쉽게 구현할 수 있습니다.

이번에는 "pandas"만으로 OK.
#pandasをインポート
import pandas as pd

import한 것에 「as ~」로 하는 것으로 임의의 캐릭터 라인으로 사용할 수가 있습니다.

일반적으로 pandas는 pd로 약칭됩니다.

파일을 Google Colaboratory에 업로드



가져오려는 파일을 Google 공동체에 올리세요.
그 외
①코드를 쓰는 방법이나
② 로컬 파일을 읽는 방법
③GoogleDrive를 마운트하고 로드하는 방법(개인적으로 추천)이 있는 것 같습니다만, 이번은 가장 간단한 방법을 소개합니다.

절차

① 가장 왼쪽 가장자리에 있는 파일 아이콘을 클릭
② 업로드(이미지의 빨간색 테두리)를 클릭하여 로드하고 싶은 파일을 선택 or 드래그&드롭에서도 OK



적당한 데이터량이 아니면 바로 끝나므로 이것으로 준비 완료입니다.

데이터 읽기는 pd.read_excel, pd.read_csv를 사용합니다.



그럼 빨리 해 봅시다.
코드는 한 줄입니다.

pandas 함수 read_excel, read_csv라는 것을 사용합니다.

사용법은
Excel 파일의 경우 pd.read_excel (파일 경로)
CSV 파일의 경우 pd.read_csv (파일 경로)
입니다.
※pd는 임포트했을 때의 이름이군요.

이번에는 DataFrame에 Excel CSV를 읽는 것이므로 df, df2와 적당히 이름을 붙여 읽어 봅시다.

저는 이번 Google Colaboratory에 2020년 날짜 데이터 date_2020.xlsx와 date_2020.csv라는 파일을 올렸으므로 경로는 파일 이름만으로 읽을 수 있습니다.

전술한 ①②③의 방법으로는 좀 더 길어집니다.

#Excel・CSVファイルをDataFrameに読み込む

df = pd.read_excel("date_2020.xlsx")

df2 = pd.read_csv("date_2020.csv")


head()로 실제로 읽을 수 있는지 표시해 본다



그래? 이렇게 읽을 수 있는지 불안?

에러가 없으면 읽고 있다고 생각합니다만, 만약을 위해 확인해 봅시다.

정의한 DataFrame.head()로 하는 것으로 선두의 5행을 표시할 수가 있습니다.
#先頭行を表示
df.head()


출력 결과↓



제대로 읽을 수있는 것 같습니다.

참고



상세하고 응용적인 사용법도 배울 수 있습니다 ↓

1) pandas에서 csv/tsv 파일 로드(read_csv, read_table)
2) pandas에서 Excel 파일(xlsx, xls) 로드(read_excel)
3) Pandas의 read_excel에서 Excel 파일을로드하는 방법

좋은 웹페이지 즐겨찾기