데이터 집계는 GoogleColabratory를 사용하는 편이 100배 빠름

어쩌면 이것이 가장 빠르다고 생각합니다. .

이 기사에서 데이터 집계 RTA를하고 있었기 때문에 나도 참가하고 싶습니다.

데이터 집계는 Excel보다 Python 사용하는 것이 100배 빠르다(pandas-profiling, pixiedust)

개인적으로 R로 하는 편이 더욱 빨리 느껴집니다.

여러 상황에 따라 pixiedust의 처리는 생략하고 있습니다. 나중에 추가하고 싶습니다.

TL;DR


  • GoogleColabratory를 사용하여 파이썬 환경 준비를 단순화
  • 손 파일을 업로드하면 pandas-profiling이 실행되도록 했다

  • 방법에 대해



    전제


  • Google 계정이 생성되었습니다 (약 10 분)
  • GoogleColabratory를 인스톨 완료(약 5분)
  • 설치 방법은 여기를 참조하십시오
  • Google Colab이 알아야 할 사용법 – Google Colaboratory의 장점과 단점

  • 이전 기사와 마찬가지로 테이블 형식의 csv 데이터는 이미 준비되어 있다고 가정합니다.

  • 작성된 JupyterNotebook을 GoogleDrive에 복사 (소요 시간 3 분)



    GoogleColabratory - auto_padas_profiling.ipynb을 자신의 GoogleDrive에 복사합니다.



    모든 셀 실행 (소요 시간 5 분)







    참고


  • 데이터 집계는 Excel보다 Python 사용하는 것이 100배 빠르다(pandas-profiling, pixiedust)
  • pandas-profiling이 탐색적 데이터 분석에 엄청 편리했던 건 - GoogleColab편
  • GoogleColabratory - External data: Drive, Sheets, and Cloud Storage
  • Google Colab이 알아야 할 사용법 – Google Colaboratory의 장점과 단점
  • 좋은 웹페이지 즐겨찾기