초보자를 위한 pandas 기초 ⑦index, columns 가동

pandas란?



Python에서 구조화 된 데이터 (테이블 형식의 데이터)를 처리하는 라이브러리입니다. 파일의 로드나 그 후의 가공·추출 처리등을 간단하게 실시할 수가 있고(SQL적인 감각으로 실시할 수 있다), 기계 학습등의 데이터의 전처리로 필수가 되는 라이브러리입니다.
다른 항목에 대한 목차는 여기입니다.

소개



이 기사에서는 index, columns 조작입니다.
pandas에서는 테이블 형식(스프레드시트 형식)의 데이터를 처리하기 때문에 행과 열이라는 개념이 필요합니다. 처음에는 별로 의식하지 않아도 됩니다만, 이 이해가 없으면 망설이는 장면이 있으므로, 간단하게 정리합니다.
행이 index이고 열이 columns입니다. Excel이라고 하면 「세로의 1,2,3,,,」가 index로, 「옆의 A, B, C,,,」가 columns입니다.
이것들은 값이 아닌 것이 포인트로, 취급하는 방법이 됩니다. columns는 감각적으로 이해할 수 있지만 index도 값이 아니라는 것을 확실히 의식합시다.

사고방식



먼저 라이브러리를 가져옵니다. pandas에 pd라는 이름을 붙여 import합니다.
import pandas as pd

샘플은 타이타닉 데이터를 사용해보십시오. 타이타닉을 모르는 사람은 「kaggle 타이타닉」으로 조사해 주세요.
dataframe = pd.read_csv('train.csv')

CSV 데이터를 읽으면 index는 0부터 시작하여 columns는 csv의 헤더 부분의 항목 이름으로 설정됩니다.



실제로 명령으로 확인해 봅시다. .index .columns에서 확인할 수 있습니다.
dataframe.index

OUT
RangeIndex(start=0, stop=891, step=1)
dataframe.columns

Out
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

index에도 columns에도 index object가 설정됩니다. index는 가장 일반적인 객체입니다. RangeIndex는 일련의 객체입니다. 그 밖에도 CategoricalIndex DatetimeIndex가 있습니다.

색인 교체



별로 할 일은 없지만 index를 바꿀 수 있습니다. Name(이름)을 index로 합니다. 데이터 프레임의 내용을 바꾸려면 inplace = True로 설정합니다. 모르는 사람은 여기를 참조.
dataframe.set_index(['Name'], inplace = True)



되돌릴 수도 있습니다. ↑를 돌려보자.
dataframe.reset_index(inplace = True)



라벨 이름 변경



레이블 이름을 변경합니다. 이쪽은 알기 어려운 이름의 라벨을 변경하거나, Join의 준비를 위해서 등에 사용합니다.
Sex를 '성별', Age를 '연령'으로 변경합니다.
dataframe.rename(columns = {'Sex':'性別','Age':'年齢'},inplace = True)



그 밖에도 .transpose를 이용한 index와 clumns의 교환이나 index의 다층화 등이 가능합니다.

이상입니다.

마지막으로



초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기이므로 다른 기사도 참고해 주시면 감사하겠습니다.

좋은 웹페이지 즐겨찾기