[Pandas] Modin.pandas를 사용한 판다스(pandas) 속도 높이기
이 글은 빅데이터에서 판다스를 사용할 때 너무 느린 속도를 빠르게 하는 방법을 정리한 글이다.
1. 판다스(pandas)
-
판다스는 데이터 분석을 위해서 사용하는 대표적인 툴
-
설치방법
pip install pandas
- 사용방법
import pandas as pd
- 여기까지는 기본 판다스를 사용하는 방법이다.
- 참고했던 자료들에 따르면, 기존 판다스는 1GB 이내에서 사용할만 하다고 한다.
- 데이터가 10GB 넘어가고 난리 났을 때는 이 판다스를 쓰면 안된다.
- modin을 사용하면 기존 pandas보다는 빠르게 작업할 수 있다고 한다.
- 특히 분석작업 끝나고 저장하는데 시간이 굉장히 많이 소요된다.
2. 데스크(dask)
- 특징: 데스크는 판다스 보다 속도가 느리지만, 대용량 파일 오픈할 때 강점
pip install dask
import dask.dataframe as dd
df = dd.read_csv(path.csv)
df.to_csv(path.csv)
. . .
df.to_parquet(path.csv)
3. 백스(vaex)
- 경험적으로 cpu는 pandas보다 더 쓰는 것 같은데, 무난하게 사용할 수 있을듯하다.
pip install vaex
import vaex
df = vaex.open(path.parquet)
. . .
df.export_parquet(path.parquet)
- 추가로 dask, vaex 링크를 걸어둡니다.
- dask와 vaex 사용방법 참고링크
4. modin(내 컴퓨터에는 적용이 안됨)
- 설치 방법
conda install -c conda-forge modin
pip install "modin[all]"
-
(아나콘다에서 다운로드 했더니--user 옵션 없으니까 다운로드도 안되고 사용도 안됐었음.)
-
쉽게 생각하면 modin 만 추가된거고, 다운로드 할 때 [all]은
-
modin[dask], modin[ray] 같은 cpu 제한 옵션 관련한 라이브러리이다.(기술문서에 사용법이 나와 있다.)
-
사용방법
import modin.pandas as pd
- 이후의 사용방법은 기존 판다스와 동일한 것 같다.(다른점 있으면 추가 예정)
- modin과 판다스 차이점
- modin과 기본 판다스 비교
- modin 사용법 블로그
Author And Source
이 문제에 관하여([Pandas] Modin.pandas를 사용한 판다스(pandas) 속도 높이기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@hugingstar/Pandas-Modin.pandas를-사용한-판다스pandas-속도-높이기저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)