Pandas 및 Dataframe 만들기

오늘 여기서 우리는 판다, 데이터 프레임이 무엇인지, 그리고 그것을 만드는 방법에 대해 이야기할 것입니다. 먼저 팬더에 대해 알아보십시오.

팬더



Pandas는 강력한 데이터 구조를 사용하여 고성능 데이터 조작 및 분석 도구를 제공하는 오픈 소스 Python 라이브러리입니다. Pandas라는 이름은 패널 데이터(다차원 데이터의 계량 경제학)라는 단어에서 파생되었습니다.

[pandas] is derived from the term "panel data", an econometrics term for data sets that include observations over multiple time periods for the same individuals.



Pandas는 용도가 너무 많아서 할 수 있는 것 대신 할 수 없는 것을 나열하는 것이 이치에 맞을 수 있습니다.

이 도구는 기본적으로 데이터의 집입니다. pandas를 통해 데이터를 정리, 변환 및 분석하여 데이터에 익숙해집니다.

다음과 같이 가져옵니다.

>>> import pandas as pd


Python에는 세 가지 주요 데이터 구조가 있습니다.
1 . Series :_ Series는 모든 데이터 유형(정수, 문자열, 부동 소수점 숫자, Python 개체 등)을 보유할 수 있는 1차원 레이블 배열입니다. 축 레이블을 집합적으로 인덱스라고 합니다. 시리즈를 생성하는 기본 방법은 다음을 호출하는 것입니다.

>>> s = pd.Series(data, index=index)


여기서 data는 여러 가지가 될 수 있습니다.
  • 파이썬 사전
  • 엔다레이
  • 스칼라 값(예: 5)

  • 2 . Data Frame : DataFrame은 잠재적으로 다른 유형의 열이 있는 2차원 레이블 데이터 구조입니다. 스프레드시트나 SQL 테이블 또는 Series 개체의 사전처럼 생각할 수 있습니다. 일반적으로 가장 일반적으로 사용되는 pandas 개체입니다. Series와 마찬가지로 DataFrame은 다양한 종류의 입력을 허용합니다.
  • 1D ndarray, 목록, 사전 또는 시리즈의 사전
  • 2차원 numpy.ndarray
  • 구조화 또는 기록 ndarray
  • A Series
  • 다른 DataFrame

  • >>> d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']), 'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
    >>> df = pd.DataFrame(d)
    >>> df
       one  two
    a  1.0  1.0
    b  2.0  2.0
    c  3.0  3.0
    d  NaN  4.0
    
    


    삼 . 패널 : 패널은 덜 사용되지만 여전히 3차원 데이터에 중요한 컨테이너입니다. 패널 데이터라는 용어는 계량 경제학에서 파생되었으며 pandas: pan(el)-da(ta)-s라는 이름에 부분적으로 책임이 있습니다. 3개 축의 이름은 패널 데이터, 특히 패널 데이터의 계량경제 분석과 관련된 작업을 설명하는 의미론적 의미를 부여하기 위한 것입니다. 그러나 DataFrame 개체 컬렉션을 슬라이싱하고 다이싱하는 엄격한 목적을 위해 축 이름이 약간 임의적일 수 있습니다.
  • 항목: 축 0, 각 항목은 내부에 포함된 DataFrame에 해당함
  • major_axis: 축 1, 각 데이터 프레임의 인덱스(행)입니다
  • .
  • minor_axis: 축 2, 각 DataFrame의 열입니다.

  • >>> wp = pd.Panel(data)
    


    pandas에서 가장 일반적이고 사용되는 데이터 구조는 DataFrame 입니다. 이제 팬더를 사용하여 dataframe 만드는 다양한 방법을 확인합니다.

    첫 번째는 목록 목록을 사용하여 Dataframe를 만드는 것입니다.

    예시:

    
    import pandas as pd    
    data = [['Ram', 10], ['Aman', 15], ['Rishi', 14]]   
    df = pd.DataFrame(data, columns = ['Name', 'Age'])   
    df 
    


    산출:


    다음 방법은 python Dataframe 또는 dict를 사용하여 ndarray를 만드는 것입니다.

    예시:

    import pandas as pd  
    data = {'Name':['Ram', 'jhon', 'krish', 'jack'], 
            'Age':[20, 21, 19, 18]}  
    df = pd.DataFrame(data) 
    df 
    


    산출:


    다음은 csv 파일에서 데이터를 가져오는 것입니다. 이를 위해 pd.read_csv() 함수를 사용합니다.
    예시:

    import pandas as pd
    df = pd.read_csv('data.csv')  
    


    다음 방법은 DataBase를 연결하는 것입니다. DataFrame를 사용하여 DataBase도 만들 수 있습니다. SQLite 데이터베이스를 연결하고 dataframe를 생성하는 예제 코드를 사용합니다.

    이를 위해 먼저 Connection 객체를 만든 다음 pd.read_sql_query() 을 사용하여 dataframe를 만듭니다.

    import pandas as pd
    import sqlite3
    conn = sqlite3.connect("database.db")#put name of database
    df = pd.read_sql_query(query)
    


    Pandas에서 data frame를 생성할 수 있는 몇 가지 방법이 있지만 data frames를 생성하는 몇 가지 방법이 더 있습니다. PandasIO toolsCSV , JSON , HTML , SAS 등의 데이터 읽기 및 쓰기를 위한 여러 유형의 파일 형식을 지원합니다. PandasIO Tools에 대한 자세한 내용은 here로 이동하거나 다음 링크를 여십시오.
    https://pandas.pydata.org/docs/user_guide/io.html#io

    읽어 주셔서 감사합니다

    좋은 웹페이지 즐겨찾기