Python을 사용하여 백만 줄 수준의 초대형 Excel 파일을 빠르게 여는 방법

3047 단어 pythonexcel파일
20M 정도의 excel 파일을 열려고 할 때 판다스의read_를 사용하든excel은 xlrd나openpyxl 모듈을 직접 사용하는데 속도가 참을 수 없을 정도로 느리고 약 1분 정도 걸립니다.
정말 그럴까요?첫 번째 느낌은 이 학생이 오픈pyxl 모듈을 사용할 때 읽기 전용 모드를 설정하지 않았다는 것이다.테스트에 편리하도록 우선 아래 코드로 백만 줄 데이터의 excel 파일을 생성합니다.

>>> from openpyxl import Workbook
>>> wb = Workbook()
>>> sh = wb.active
>>> sh.append(['id', ' ', ' ', ' ', ' '])
>>> for i in range(1000000): #  100 
	sh.append([i+1, 90, 100, 95, 99])

	
>>> wb.save(r'd:\bigxlsx.xlsx')
>>> import os
>>> os.path.getsize(r'd:\bigxlsx.xlsx') #  :20M 
20230528
다음은 Openpyxl 모듈로 파일을 열 수 있는 함수를 정의하고 닫기와 읽기 전용 모드를 열 수 있는 시간 소모를 고찰합니다.

>>> from openpyxl import load_workbook
>>> import time
>>> def read_xlsx(read_only):
	t0 = time.time()
	wb = load_workbook(r'd:\bigxlsx.xlsx', read_only=read_only)
	t1 = time.time()
	print(wb.sheetnames)
	print(sh.cell(row=1, column=1).value)
	print(sh.cell(row=100, column=3).value)
	print(' %0.3f '%(t1-t0))

	
>>> read_xlsx(True)
['Sheet']
id
100
 0.404 
>>> read_xlsx(False)
['Sheet']
id
100
 67.817 
테스트를 실행하면 과연 읽기 전용 모드를 켜지 않으면 1분이 넘게 걸리고, 읽기 전용 모드를 사용하면 0.4초밖에 걸리지 않는다.
하지만 너무 일찍 기뻐하지 마세요. 오픈pyxl 모듈은pandas와 같은 것을 제공하지 않습니다.read_excel () 처럼 모든 데이터를 하나의 데이터 구조로 읽는 기능은 줄, 열, 칸으로만 위치를 정하고 데이터를 읽을 수 있습니다.오픈pyxl 모듈을 사용하여 모든 데이터를 수조나 DataFrame에 읽으려면 모든 줄과 열을 훑어봐야 합니다. 이것은 여전히 시간이 많이 걸리는 작업입니다.
그럼, 판다스.read_excel () 도 읽기 전용 모드를 지원합니까?안타깝게도 read_excel () 은 read_와 유사하지 않습니다only와 같은 매개 변수.비록read_excel () 은 파일 경로, 파일 대상, 클래스 파일 대상, 심지어 바이너리 데이터를 받아들일 수 있지만, 파일 내용을 불러와도read_excel () 이 100만 줄의 데이터를 분석하는 데는 여전히 약 80초가 걸린다.아래의 코드가 이 점을 검증했다.

>>> import pandas as pd
>>> def read_excel_by_pandas():	
	with open(r'd:\bigxlsx.xlsx', 'rb') as fp:
		content = fp.read()
		t0 = time.time()
		df = pd.read_excel(content, engine='openpyxl')
		t1 = time.time()
	print(df.head())
	print(df.tail())
	print(' %0.3f '%(t1-t0))

	
>>> read_excel_by_pandas()
  id         
0  1 90 100 95 99
1  2 90 100 95 99
2  3 90 100 95 99
3  4 90 100 95 99
4  5 90 100 95 99
       id         
999995  999996 90 100 95 99
999996  999997 90 100 95 99
999997  999998 90 100 95 99
999998  999999 90 100 95 99
999999 1000000 90 100 95 99
 81.369 
결론: 초대형 Excel 파일을 처리할 때 Openpyxl 모듈의 읽기 전용 모드를 사용하면 지정한 칸의 데이터를 신속하게 열고 얻을 수 있지만 모든 데이터를 자신이 정의한 데이터 구조에 읽어 보지 마세요. 시간이 오래 걸립니다.이에 대해 판다스도 어쩔 수 없었다.
파이썬을 사용하여 백만 줄 수준의 초대형 Excel 파일을 빠르게 열 수 있는 방법에 대한 이 글을 소개합니다. 더 많은 파이썬이 excel 파일을 열 수 있는 내용은 이전의 글을 검색하거나 아래의 관련 글을 계속 훑어보십시오. 앞으로 많은 응원 부탁드립니다!

좋은 웹페이지 즐겨찾기