Pandas를 사용하여 데이터 분석 및 정리
Pandas를 사용하여 데이터 분석
데이터를 데이터 프레임에 로드한 후 먼저 데이터 세트에 대한 간략한 개요를 만드는 것이 좋습니다. 데이터 세트는 csv 형식일 수 있으므로 데이터 프레임에 로드하려면 다음을 사용합니다.
import pandas as pd
dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
print(dx)
다음을 포함하는 다양한 방법으로 데이터를 볼 수 있습니다.
헤더와 지정된 행 수를 위에서부터 반환하는 함수입니다.
import pandas as pd
dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\datas.csv")
print(dt.head(10))
아래쪽에서 헤더와 지정된 행 수를 반환합니다.
import pandas as pd
dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
print(dt.tail())
데이터 유형, null이 아닌 셀, 메모리를 표시하는 데이터 세트에 대한 자세한 정보를 제공하는 기능입니다.
dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
print(dt.info())
이 함수는 평균, 중앙값, 표준 편차, 최대값을 보여주는 데이터에 대한 설명을 제공합니다.
dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
print(dt.describe())
pandas를 사용하여 데이터 정리
데이터 정리는 단순히 데이터 세트에서 잘못된 데이터를 제거하는 것입니다. 여기에는 빈 셀 제거, 중복 제거, 잘못된 형식의 데이터 확인이 포함될 수 있습니다.
중복은 두 번 이상 등록된 행입니다.
중복을 제거하기 위해 우리는 중복이 존재하면 True이고 그렇지 않으면 False를 반환하는 부울 값을 반환하는 duplicated() 함수를 사용합니다.
dt.duplicated().sum()
dropna() 함수를 사용하여 빈 셀을 제거합니다. 이것은 새 데이터 세트를 반환하고 원래 데이터 세트를 변경하지 않는 방법입니다.
dt = pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\datas.csv")
data1=dt.dropna()
print(data1)
잘못된 값을 바꾸거나 잘못된 값을 제거하는 두 가지 방법으로 잘못된 데이터를 수정합니다.
잘못된 데이터 제거
dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
dx.dropna(subset=['fname'],inplace=True)
print(dx)
2. 잘못된 데이터 교체
dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
for line in dx.index:
if dx.loc[line,'ASSIGN 2']>90:
dx.loc[line,'ASSIGN 2']=10
print(dx)
형식이 잘못된 일부 열이나 행이 있는 데이터를 분석하는 것은 어렵고 불가능할 수 있습니다. 잘못된 형식은 여러 데이터 유형이 있는 행일 수 있습니다. 이를 수정하려면 전체 행을 하나의 데이터 유형으로 변환하거나 데이터 세트에서 전체 행을 제거할 수 있습니다.
전체 행 제거
dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
dx.dropna(subset=['row 3'])
print(dx)
Reference
이 문제에 관하여(Pandas를 사용하여 데이터 분석 및 정리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/marykariuki90/analyzing-and-cleaning-data-using-pandas-1jfc텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)