Pandas를 사용하여 데이터 세트 읽기 및 조작
전시하다
먼저 데이터 세트를 Google colab에 업로드해야 합니다.이 점을 하려면 다음과 같이 써야 한다.
from google.colab import files
uploaded = files.upload()
선택할 수 있는 단추가 있습니다.csv 파일은 컴퓨터에서 가져옵니다.파일을 업로드한 후에도 이름이 동일한지 확인하십시오. 같은 세션에서 같은 파일을 여러 번 업로드하면 데이터 세트의 이름이 변경되기 때문입니다.
현재 파일을 올릴 때 데이터 집합을 읽어야 합니다.너는 판다 도서관을 이용해서 읽을 것이다.csv 파일을 'pd' 라고 명명합니다.CSV의 전체 형식은 행과 열을 포함하여 테이블(또는 스프레드시트) 형식으로 데이터를 저장하는 데 사용되는 쉼표로 구분된 값입니다.따라서 우리는 데이터베이스에서 데이터를 읽을 수 있는 2차원 데이터 구조가 필요하다.csv 파일.판다에서 가장 흔히 볼 수 있는 2차원 데이터 구조는 데이터 프레임이다.우리는 df가 표시하는 데이터 프레임을 가져와서 읽습니다.csv 파일을 데이터 프레임 df에 저장합니다.
import pandas as pd
df = pd.read_csv("winequality-red.csv")
df
이것이 바로 데이터의 모습이다.출력의 왼쪽 아래에 있는 줄과 열의 총수를 찾을 수 있습니다.데이터 세트의 차원을 이해하는 또 다른 방법도 있습니다.
df.shape
출력은: (1599,12)로 숫자는 연속된 줄과 열을 나타낸다.많은 열이 있기 때문에, 그것들이 어떤 유형의 데이터, 숫자, 분수, 단어인지 알아야 할 수도 있다.이 점을 확인하려면 다음과 같이 적으십시오.
df.dtypes
다음 명령을 사용하여 개수, 평균, 표준 편차, 최소값, 최대값 및 모든 열의 25, 50, 75 백분위와 같은 몇 가지 통계 요약을 볼 수 있습니다.
df.describe()
출력에 모든 줄이 표시되지 않았음을 알 수 있습니다.첫 번째 행과 마지막 행은 표시되고 중간 행은 표시되지 않으며 "..."으로 대체됩니다.반대로이 모든 줄을 보는 것은 때때로 너무 많을 수도 있습니다. 코드가 정상적으로 작동하는지 확인하기 위해 몇 줄의 데이터만 볼 수도 있습니다.예를 들어, 처음 다섯 행의 데이터만 보려는 경우
df.head()
마찬가지로 데이터 세트의 마지막 행만 보려면 다음과 같이 하십시오.
df.tail(3)
8 줄을 보고 싶으면?
df[:8]
콜론 뒤의 숫자는 첫 번째 줄에서 시작하는 줄 수를 표시합니다. (이 예에서 0 줄에서 7 줄까지입니다.)지금 마지막 8줄을 보고 싶다면 1591줄에서 1598줄을 찾아야 한다.이 경우:
df[1591:]
"..."대신 데이터 세트의 모든 행을 한 번에 보려는 경우다음과 같이 하십시오.
pd.set_option('display.max_rows', None)
df
이것은 스크롤 가능한 필드의 모든 줄을 볼 수 있도록 합니다.
데이터 프레임을 변환할 수도 있습니다. 즉, 행을 열로, 열을 행으로 변환할 수도 있습니다.행과 열을 교차하려면 다음과 같이 작성합니다.
df.T
여기서, 당신은 모든 열을 볼 수 없고, 중간의 열은 '...' 으로 대체됩니다.다시 한번변경하려면 다음과 같이 하십시오.
pd.set_option('display.max_columns', None)
df.T
Pandas의 기본 디스플레이 명령을 이미 알고 있는 것처럼 데이터 세트 조작 기술을 깊이 있게 이해할 준비가 되어 있습니다.
Reference
이 문제에 관하여(Pandas를 사용하여 데이터 세트 읽기 및 조작), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://dev.to/orthymarjan/reading-and-manipulating-your-dataset-with-pandas-3kla
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
from google.colab import files
uploaded = files.upload()
import pandas as pd
df = pd.read_csv("winequality-red.csv")
df
df.shape
df.dtypes
df.describe()
df.head()
df.tail(3)
df[:8]
df[1591:]
pd.set_option('display.max_rows', None)
df
df.T
pd.set_option('display.max_columns', None)
df.T
Reference
이 문제에 관하여(Pandas를 사용하여 데이터 세트 읽기 및 조작), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/orthymarjan/reading-and-manipulating-your-dataset-with-pandas-3kla텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)