Pandas 빠 른 학습

25293 단어
pandas 데이터 구조
pandas 의 데이터 구 조 는 numpy 를 바탕 으로 구 축 된 것 이다. pandas 의 데이터 구 조 는 세 단계 로 나 눌 수 있 고 낮은 등급 의 데이터 구 조 는 높 은 등급 의 데이터 구조의 요소 로 볼 수 있다. 이렇게 이해 할 수 있다. 최저 등급 의 데이터 구 조 는 1 차원 배열 이 고 두 번 째 등급 의 데이터 구 조 는 2 차원 배열 이 라 고 볼 수 있다.세 번 째 단계 의 데이터 구 조 는 3 차원 의 배열 이 라 고 볼 수 있다. 물론 이 세 가지 데이터 구조의 복잡 한 정 도 는 배열 보다 훨씬 높다. 이 세 가지 데이터 구 조 는 각각 Series, DataFramePanel 이다. 이런 데이터 구조의 상세 함 은 다음 과 같다.
Series
Series 는 라 는 뜻 으로 1 차원 배열 이다. 그 복잡 한 정 도 는 그 가 1 차원 배열 에 많은 조작 방법 을 제공 하여 이런 1 차원 데 이 터 를 처리 하 는 데 편리 하 다 는 것 이다.
  • Series 대상 만 들 기
  • 구조 함수 의 매개 변수
  • data 매개 변 수 는 바로 들 어 오 는 데이터 로 하나의 배열 또는 교체 가능 한 대상
  • 이 어야 한다.
  • index 매개 변 수 는 색인 을 지정 하고 1 차원 배열 이 어야 합 니 다 (다 차원 배열 일 수도 있 습 니 다. 예 를 들 어)
  • dtype 매개 변수, 지정 한 요소 의 데이터 형식
    import pandas as pd
          
    s1 = pd.Series([[1,2,3],[2,3,4]],index=[[1,2],[3,4]])
    print(s1)
    

    돌아 오 는 Series 는 다음 과 같 습 니 다.
    1  3    [1, 2, 3]
    2  4    [2, 3, 4]
    


  • Series 대상 만 들 기
    import pandas as pd
        
    s1 = pd.Series([1,2,3,4])
    

    다 차원 배열 을 사용 하여 Series 대상 을 만 들 수도 있 습 니 다. 다만 그 는 데 이 터 를 1 차원 으로 해석 할 것 입 니 다. 다음 과 같 습 니 다.
    import pandas as pd
        
    s1 = pd.Series([[1,2,3],[2,3,4]])
    

    그것 은 다음 과 같은 형식 으로 해 석 될 것 이다.
    0    [1, 2, 3]
    1    [2, 3, 4]
    

    그 중에서 왼쪽 은 색인 이 고 오른쪽 은 값 이다. 즉, 몇 차원 의 배열 을 전달 하 든 그 는 이 를 1 차원 의 형식 으로 해석 할 것 이다. 다만 안의 요 소 는 n-1 차원 으로 변 할 뿐이다.
  • Series 의 몇 가지 중요 한 속성
  • T 속성: 반환 Series 의 전환, 전환 의 유형 도 Series, Series 의 전환 은 변 하지 않 습 니 다. 이렇게 이해 할 수 있 습 니 다. 돌려 놓 은 전환 은 다시 하나의 Series 대상 으로 구성 되 었 습 니 다.
  • at 속성: 하나의 pandas.core.indexing._AtIndexer 대상 을 되 돌려 주 고 이 대상 을 통 해 색인 으로 데 이 터 를 방문 할 수 있 습 니 다.
    import pandas as pd
        
    s = pd.Series([1,2,3])
    print(s.at[1])
    

    다음 과 같이 되 돌아 갑 니 다.
    2
    

    실제 속성의 이름 은 명 사 를 사용 해 야 하지만 그 는 자연 언어 처럼 보이 기 위해 부사 일 것 이다. 속성 명
  • 으로 사용 했다.

    DataFrame DataFrame 의 글자 뜻 은 데이터 상자 이다. 글자 의 의미 에서 도 2 차원 배열 임 을 알 수 있 고 Series 과 유사 하 다. 그 도 2 차원 배열 로 해석 되 었 을 것 이다.
  • 대상 만 들 기 DataFrame
  • 구조 방법 파라미터
  • data: 들 어 온 데이터, 2 차원 배열
  • index: 색인 명 은 하나의 이름
  • 으로 이해 할 수 있다.
  • columns: 열 명, 색인 과 상대 적 으로 줄 이름
  • dtype: 요소 의 데이터 구조
  • DataFrame 대상 구축
    import pandas as pd
    import numpy as np
        
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    data_frame
    



  • 그림 - 1 되 돌아 오 는 데이터 대상
    일반적인 방법 으로 DataFrame 대상 을 구성 하 는 것 외 에 사전 을 사용 하여 DataFrame 대상 을 만 들 수도 있 습 니 다. 그러면 생 성 대상 은 사전 의 key 을 열 로 하고 사전 의 value 을 열 로 합 니 다.
  • DataFrame 의 중요 한 속성 DataFrame 의 속성 과 방법 은 매우 많 습 니 다. 여 기 는 몇 가지 중요 한 속성 만 말 합 니 다.
  • T: DataFrame 의 전환 을 되 돌려 줍 니 다.
    import pandas as pd
    import numpy as np
        
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    data_frame.T
    

    다음 과 같이 되 돌아 갑 니 다.
    	   	   	   
       	1	4	7
       	2	5	8
       	3	6	9
    

  • index: 모든 열 이름 을 되 돌려 줍 니 다. 왜 중요 합 니까? index 에 따라 줄 별로 데 이 터 를 찾 을 수 있 습 니 다.
    import pandas as pd
    import numpy as np
        
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    data_frame.index
    
    Index(['   ', '   ', '   '], dtype='object')
    

  • columns: 열 이름과 상대 하여 모든 줄 이름 을 되 돌려 줍 니 다.
    import pandas as pd
    import numpy as np
        
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    data_frame.columns
    
    Index(['   ', '   ', '   '], dtype='object')
    

  • loc 위치 추적 기 를 되 돌려 줍 니 다. 이것 은 위치 추적 기 에 두 개의 인자 가 있 는 것 과 같 습 니 다. 하나의 조작 줄 (즉 index, 하나의 조작 열 (즉 columns 은 다음 과 같 습 니 다.
    data_frame.loc[index,columns]
    

    이렇게 하면 쉽게 이해 할 수 있다. 다음은 이 포 지 셔 닝 기기 의 꽃무늬 포 지 셔 닝 을 살 펴 보 자. 아래 의 사례 는 모두 아래 의 이 데 이 터 를 예 로 들 자.
    그림 - 2 원시 데이터
  • 한 줄 을 정 하고 첫 번 째 매개 변 수 를 조작 합 니 다.
    import pandas as pd
    import numpy as np
          
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    data_frame.loc["   "]
    

    첫 줄 의 데 이 터 를 되 돌려 줍 니 다.
           1
           2
           3
    Name:    , dtype: int64
    

  • 첫 번 째 매개 변 수 를 조작 해 야 합 니 다. 이 열의 모든 데이터, 즉 이 열의 모든 줄 을 되 돌려 야 하고 두 번 째 매개 변 수 를 조작 해 야 합 니 다. 그 열 을 지정 해 야 하기 때 문 입 니 다.
    import pandas as pd
    import numpy as np
          
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    # ':'    ,    
    #             
    data_frame.loc[:,"   "]
    

    다음 과 같이 되 돌아 갑 니 다.
           2
           5
           8
    Name:    , dtype: int64
    

  • 여러 줄 의 다 열 을 지정 합 니 다. 첫 번 째 매개 변수 와 두 번 째 매개 변 수 는 하나의 배열 에 들 어 갈 수 있 습 니 다. 여러 줄 의 다 열 을 표시 합 니 다. 이것 은 그 가 DataFrame 대상 을 되 돌려 줄 것 입 니 다. 여러 줄 의 다 열 을 지정 할 수 있 으 니 당연히 슬라이스 할 수 있 습 니 다.
    import pandas as pd
    import numpy as np
          
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
    data_frame.loc[["   ","   "],["   ","   "]]
    

    되돌아오다
    제1 열
    제2 열
    첫 줄
    1
    2
    두 번 째 줄
    4
    5
  • 사용 조건 색인 포 지 셔 닝
  • 명시 적 조건 색인
    import pandas as pd
    import numpy as np
            
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
            
    #       ,    
    data_frame.loc[[False,False,True],[False,False,True]]
    

    다음 과 같이 되 돌아 갑 니 다.
    제3 열
    셋째 줄
    9
  • 암시 적 조건 색인, 즉 조건 식 으로 조건 색인 을 하 는 것 이다.
    import pandas as pd
    import numpy as np
            
    data_frame = pd.DataFrame([[1,2,3,],[4,5,6],[7,8,9]]
                              ,index=["   ","   ","   "]
                              ,columns=["   ","   ","   "]
                              ,dtype=np.int64)
            
    #         2     
    data_frame.loc[data_frame["   "]>2]
    

    제1 열
    제2 열
    제3 열
    두 번 째 줄
    4
    5
    6
    셋째 줄
    7
    8
    9




  • ??본문 끝?

    좋은 웹페이지 즐겨찾기