Pandas를 사용하여 데이터 분석 및 정리

2857 단어

Pandas를 사용하여 데이터 분석



데이터를 데이터 프레임에 로드한 후 먼저 데이터 세트에 대한 간략한 개요를 만드는 것이 좋습니다. 데이터 세트는 csv 형식일 수 있으므로 데이터 프레임에 로드하려면 다음을 사용합니다.

import pandas as pd
dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
print(dx)


다음을 포함하는 다양한 방법으로 데이터를 볼 수 있습니다.
  • head() 함수

  • 헤더와 지정된 행 수를 위에서부터 반환하는 함수입니다.

    import pandas as pd
    dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\datas.csv")
    print(dt.head(10))
    


  • tail() 함수

  • 아래쪽에서 헤더와 지정된 행 수를 반환합니다.

    import pandas as pd
    dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
    print(dt.tail())
    


  • 정보() 함수

  • 데이터 유형, null이 아닌 셀, 메모리를 표시하는 데이터 세트에 대한 자세한 정보를 제공하는 기능입니다.

    dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
    print(dt.info())
    


  • describe() 함수

  • 이 함수는 평균, 중앙값, 표준 편차, 최대값을 보여주는 데이터에 대한 설명을 제공합니다.

    dt=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
    print(dt.describe())
    


    pandas를 사용하여 데이터 정리



    데이터 정리는 단순히 데이터 세트에서 잘못된 데이터를 제거하는 것입니다. 여기에는 빈 셀 제거, 중복 제거, 잘못된 형식의 데이터 확인이 포함될 수 있습니다.
  • 중복 제거

  • 중복은 두 번 이상 등록된 행입니다.
    중복을 제거하기 위해 우리는 중복이 존재하면 True이고 그렇지 않으면 False를 반환하는 부울 값을 반환하는 duplicated() 함수를 사용합니다.

    dt.duplicated().sum()
    


  • 빈 셀 제거

  • dropna() 함수를 사용하여 빈 셀을 제거합니다. 이것은 새 데이터 세트를 반환하고 원래 데이터 세트를 변경하지 않는 방법입니다.

    dt = pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\datas.csv")
    data1=dt.dropna()
    print(data1)
    


  • 잘못된 데이터 정리

  • 잘못된 값을 바꾸거나 잘못된 값을 제거하는 두 가지 방법으로 잘못된 데이터를 수정합니다.

  • 잘못된 데이터 제거

  • dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
    dx.dropna(subset=['fname'],inplace=True)
    print(dx)
    


    2. 잘못된 데이터 교체

    dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
    for line in dx.index:
        if dx.loc[line,'ASSIGN 2']>90:
            dx.loc[line,'ASSIGN 2']=10
    print(dx)
    


  • 잘못된 형식 청소

  • 형식이 잘못된 일부 열이나 행이 있는 데이터를 분석하는 것은 어렵고 불가능할 수 있습니다. 잘못된 형식은 여러 데이터 유형이 있는 행일 수 있습니다. 이를 수정하려면 전체 행을 하나의 데이터 유형으로 변환하거나 데이터 세트에서 전체 행을 제거할 수 있습니다.
    전체 행 제거

    dx=pd.read_csv(r"C:\Users\ADMIN\Desktop\EXCEL\RECORD2.csv")
    dx.dropna(subset=['row 3'])
    print(dx)
    

    좋은 웹페이지 즐겨찾기