Pandas를 사용하여 데이터 세트 읽기 및 조작

만약에 데이터 과학 애호가라면 데이터 분석이나 기계 학습에 종사하고 싶다. 어디서부터 시작하고 어떻게 시작하는지 알고 싶다면 먼저 데이터 집합을 읽고 조작하는 것을 배워야 한다.데이터 분석이나 기계 학습 문제를 처리할 때, 사용자는 하나의 데이터 (excel 표일 수도 있음) 를 받을 수도 있고, 일부 하드웨어, 조사 또는 다른 출처에서 데이터를 수집하고 있을 수도 있습니다.내가 처음으로 이 분야에서 일을 시작했을 때, 나는 가장 흔하고 광범위하게 사용되는 데이터 집합 조작 명령을 추적하기 어려웠다.본문에서 파이썬의'Pandas'라이브러리에서 가장 자주 사용하는 명령을 여러분과 공유하고 싶습니다.나는 예시적인 데이터 집합을 Kaggle (https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009 에서 추출한 것을 보여 준다.Google colab을 사용하여 코드를 실행하고 있으며, 액세스 링크 https://colab.research.google.com/notebooks/intro.ipynb#recent=true 를 통해 쉽게 사용할 수 있습니다.코드 블록을 작성하려면 새 수첩을 만들어야 합니다.

전시하다


먼저 데이터 세트를 Google colab에 업로드해야 합니다.이 점을 하려면 다음과 같이 써야 한다.
from google.colab import files
uploaded = files.upload()
선택할 수 있는 단추가 있습니다.csv 파일은 컴퓨터에서 가져옵니다.파일을 업로드한 후에도 이름이 동일한지 확인하십시오. 같은 세션에서 같은 파일을 여러 번 업로드하면 데이터 세트의 이름이 변경되기 때문입니다.

현재 파일을 올릴 때 데이터 집합을 읽어야 합니다.너는 판다 도서관을 이용해서 읽을 것이다.csv 파일을 'pd' 라고 명명합니다.CSV의 전체 형식은 행과 열을 포함하여 테이블(또는 스프레드시트) 형식으로 데이터를 저장하는 데 사용되는 쉼표로 구분된 값입니다.따라서 우리는 데이터베이스에서 데이터를 읽을 수 있는 2차원 데이터 구조가 필요하다.csv 파일.판다에서 가장 흔히 볼 수 있는 2차원 데이터 구조는 데이터 프레임이다.우리는 df가 표시하는 데이터 프레임을 가져와서 읽습니다.csv 파일을 데이터 프레임 df에 저장합니다.
import pandas as pd
df = pd.read_csv("winequality-red.csv")
df

이것이 바로 데이터의 모습이다.출력의 왼쪽 아래에 있는 줄과 열의 총수를 찾을 수 있습니다.데이터 세트의 차원을 이해하는 또 다른 방법도 있습니다.
df.shape
출력은: (1599,12)로 숫자는 연속된 줄과 열을 나타낸다.많은 열이 있기 때문에, 그것들이 어떤 유형의 데이터, 숫자, 분수, 단어인지 알아야 할 수도 있다.이 점을 확인하려면 다음과 같이 적으십시오.
df.dtypes

다음 명령을 사용하여 개수, 평균, 표준 편차, 최소값, 최대값 및 모든 열의 25, 50, 75 백분위와 같은 몇 가지 통계 요약을 볼 수 있습니다.
df.describe()

출력에 모든 줄이 표시되지 않았음을 알 수 있습니다.첫 번째 행과 마지막 행은 표시되고 중간 행은 표시되지 않으며 "..."으로 대체됩니다.반대로이 모든 줄을 보는 것은 때때로 너무 많을 수도 있습니다. 코드가 정상적으로 작동하는지 확인하기 위해 몇 줄의 데이터만 볼 수도 있습니다.예를 들어, 처음 다섯 행의 데이터만 보려는 경우
df.head()

마찬가지로 데이터 세트의 마지막 행만 보려면 다음과 같이 하십시오.
df.tail(3)

8 줄을 보고 싶으면?
df[:8]

콜론 뒤의 숫자는 첫 번째 줄에서 시작하는 줄 수를 표시합니다. (이 예에서 0 줄에서 7 줄까지입니다.)지금 마지막 8줄을 보고 싶다면 1591줄에서 1598줄을 찾아야 한다.이 경우:
df[1591:]

"..."대신 데이터 세트의 모든 행을 한 번에 보려는 경우다음과 같이 하십시오.
pd.set_option('display.max_rows', None)  
df
이것은 스크롤 가능한 필드의 모든 줄을 볼 수 있도록 합니다.
데이터 프레임을 변환할 수도 있습니다. 즉, 행을 열로, 열을 행으로 변환할 수도 있습니다.행과 열을 교차하려면 다음과 같이 작성합니다.
df.T

여기서, 당신은 모든 열을 볼 수 없고, 중간의 열은 '...' 으로 대체됩니다.다시 한번변경하려면 다음과 같이 하십시오.
pd.set_option('display.max_columns', None)  
df.T
Pandas의 기본 디스플레이 명령을 이미 알고 있는 것처럼 데이터 세트 조작 기술을 깊이 있게 이해할 준비가 되어 있습니다.

좋은 웹페이지 즐겨찾기