[Pandas] Modin.pandas를 사용한 판다스(pandas) 속도 높이기

이 글은 빅데이터에서 판다스를 사용할 때 너무 느린 속도를 빠르게 하는 방법을 정리한 글이다.

1. 판다스(pandas)

  • 판다스는 데이터 분석을 위해서 사용하는 대표적인 툴

  • 설치방법

  pip install pandas
  • 사용방법
import pandas as pd
  • 여기까지는 기본 판다스를 사용하는 방법이다.
  • 참고했던 자료들에 따르면, 기존 판다스는 1GB 이내에서 사용할만 하다고 한다.
  • 데이터가 10GB 넘어가고 난리 났을 때는 이 판다스를 쓰면 안된다.
  • modin을 사용하면 기존 pandas보다는 빠르게 작업할 수 있다고 한다.
  • 특히 분석작업 끝나고 저장하는데 시간이 굉장히 많이 소요된다.

2. 데스크(dask)

  • 특징: 데스크는 판다스 보다 속도가 느리지만, 대용량 파일 오픈할 때 강점
  pip install dask
  import dask.dataframe as dd
  df = dd.read_csv(path.csv)
  df.to_csv(path.csv)
  . . .
  df.to_parquet(path.csv)

3. 백스(vaex)

  • 경험적으로 cpu는 pandas보다 더 쓰는 것 같은데, 무난하게 사용할 수 있을듯하다.
  pip install vaex
  import vaex
  df = vaex.open(path.parquet)
  . . .
  df.export_parquet(path.parquet)

4. modin(내 컴퓨터에는 적용이 안됨)

  • 설치 방법
conda install -c conda-forge modin
pip install "modin[all]"
  • (아나콘다에서 다운로드 했더니--user 옵션 없으니까 다운로드도 안되고 사용도 안됐었음.)

  • 쉽게 생각하면 modin 만 추가된거고, 다운로드 할 때 [all]은

  • modin[dask], modin[ray] 같은 cpu 제한 옵션 관련한 라이브러리이다.(기술문서에 사용법이 나와 있다.)

  • modin 기술문서

  • 사용방법

import modin.pandas as pd

좋은 웹페이지 즐겨찾기