팬더 - 개요

판다는 무엇입니까?
Pandas는 두 개의 Python 패키지인 Matplotlib 및 Numpy를 기반으로 하는 Python 패키지입니다.
1,400만 명의 사용자

DataFrame: 2차원, 가변, 이기종(Can be), 테이블 형식의 데이터 구조

  • .info() 방법:
    열 이름, null이 아닌 개수, Dtype, 메모리 사용량을 사용하여 dataFrame의 요약을 생성합니다.

  • .head() 방법:
    처음 몇 행(DataFrame의 "헤드")을 반환합니다.

  • .describe() 방법:
    평균, 최대, 표준 편차, 백분위수와 같은 통계 속성을 계산하는 데 사용

  • .valuesdataFrame의 Numpy 표현을 반환합니다.
    그러나 to_numpy()보다는 .values라는 새로운 방법을 사용해야 합니다.
  • .columns데이터베이스 및 해당 데이터 유형에 대한 모든 열 머리글을 나열합니다.
  • .indexdataFrame의 모든 인덱스를 나열합니다. 이 인덱스는 행 수를 의미합니다.
  • .shape 기능:
    행 및 열과 같은 모양의 튜플을 반환합니다
  • .
  • .size 기능:
    해당 데이터 프레임의 전체 요소 수를 반환합니다
  • .
  • .ndim 기능:
    데이터베이스의 차원을 반환합니다
  • .
  • DataFrame 열 선택
    이중 대괄호 구문으로 데이터베이스에서 여러 열을 선택할 수도 있습니다. 첫 번째 대괄호는 데이터 프레임 선택 구문용이고 두 번째 대괄호는 열 목록용입니다.

  • column1 = dataFrame['columnName']
    column1 = dataFrame.columnName
    column1 = dataFrame[['columnName', 'col2']]
    

  • 논리적 테스트로 DataFrame 행 선택
  • 행 선택의 And 또는 연산자
  • 특정 값 행 선택:
    이것은 값이 값인 주어진 열에서 특정 행을 선택합니다.
    여기서도 다른 논리 연산자를 사용할 수 있습니다.

  • row1 = dataFrame.[dataFrame.column == 'Value']
    row1 = dataFrame.[dataFrame[column]== 'Value']
    
    

  • 데이터 프레임 정렬:

  • sortedDataFrame = dataFrame.sort_values('column_to_sort')
    sortedDataFrame = dataFrame.sort_values(by = ['column_to_sort1', 'column_to_sort2'])
    

    정렬은 숫자, 날짜에 대해 수행할 수 있습니다.
    추가 속성 -
    오름차순 = 참/거짓,
    na_position = first/last - Nan 값을 넣을 위치.
    예시:

    homelessness_reg_fam = homelessness.sort_values(['region','family_members'],ascending=[True,False])
    


  • isin() 방법:isin()는 DataFrame 필터링에 사용됩니다. 특정 값 및 특정 열 포함.

  • # The Mojave Desert states
    canu = ["California", "Arizona", "Nevada", "Utah"]
    
    # Filter for rows in the Mojave Desert states
    mojave_homelessness = homelessness[homelessness.state.isin(canu)]
    


  • 데이터베이스에 새 열 추가:
    새 열 추가에 대한 용어: DataFrame 변형/변환 또는 기능 엔지니어링

  • dataframe['new_column'] = old_column.some_transformation
    


  • 요약 통계
    요약 통계는 데이터를 요약하고 더 많이 알 수 있는 방법입니다.mean() , median() , mode() , min() , max() , var() , std() , sum() , quantile() , agg() ,agg() 메서드는 사용자 정의 요약 통계를 계산하는 데 사용됩니다.agg() 함수는 목록 형식의 매개 변수 함수를 두 개 이상 사용합니다.
    사용자 지정 백분위수의 예는 다음과 같습니다.

  • def percentile30(column):
       return column.quantile(0.4)
    
    dataFrame[columnName].agg(percentile30)
    

    min , max 와 같은 함수는 날짜 열에서도 작동합니다.

    누적 통계 계산cumsum() , cummax() , cummin() , cumprod()
    계속하려면...

    좋은 웹페이지 즐겨찾기