Python을 사용하여 백만 줄 수준의 초대형 Excel 파일을 빠르게 여는 방법
정말 그럴까요?첫 번째 느낌은 이 학생이 오픈pyxl 모듈을 사용할 때 읽기 전용 모드를 설정하지 않았다는 것이다.테스트에 편리하도록 우선 아래 코드로 백만 줄 데이터의 excel 파일을 생성합니다.
>>> from openpyxl import Workbook
>>> wb = Workbook()
>>> sh = wb.active
>>> sh.append(['id', ' ', ' ', ' ', ' '])
>>> for i in range(1000000): # 100
sh.append([i+1, 90, 100, 95, 99])
>>> wb.save(r'd:\bigxlsx.xlsx')
>>> import os
>>> os.path.getsize(r'd:\bigxlsx.xlsx') # :20M
20230528
다음은 Openpyxl 모듈로 파일을 열 수 있는 함수를 정의하고 닫기와 읽기 전용 모드를 열 수 있는 시간 소모를 고찰합니다.
>>> from openpyxl import load_workbook
>>> import time
>>> def read_xlsx(read_only):
t0 = time.time()
wb = load_workbook(r'd:\bigxlsx.xlsx', read_only=read_only)
t1 = time.time()
print(wb.sheetnames)
print(sh.cell(row=1, column=1).value)
print(sh.cell(row=100, column=3).value)
print(' %0.3f '%(t1-t0))
>>> read_xlsx(True)
['Sheet']
id
100
0.404
>>> read_xlsx(False)
['Sheet']
id
100
67.817
테스트를 실행하면 과연 읽기 전용 모드를 켜지 않으면 1분이 넘게 걸리고, 읽기 전용 모드를 사용하면 0.4초밖에 걸리지 않는다.하지만 너무 일찍 기뻐하지 마세요. 오픈pyxl 모듈은pandas와 같은 것을 제공하지 않습니다.read_excel () 처럼 모든 데이터를 하나의 데이터 구조로 읽는 기능은 줄, 열, 칸으로만 위치를 정하고 데이터를 읽을 수 있습니다.오픈pyxl 모듈을 사용하여 모든 데이터를 수조나 DataFrame에 읽으려면 모든 줄과 열을 훑어봐야 합니다. 이것은 여전히 시간이 많이 걸리는 작업입니다.
그럼, 판다스.read_excel () 도 읽기 전용 모드를 지원합니까?안타깝게도 read_excel () 은 read_와 유사하지 않습니다only와 같은 매개 변수.비록read_excel () 은 파일 경로, 파일 대상, 클래스 파일 대상, 심지어 바이너리 데이터를 받아들일 수 있지만, 파일 내용을 불러와도read_excel () 이 100만 줄의 데이터를 분석하는 데는 여전히 약 80초가 걸린다.아래의 코드가 이 점을 검증했다.
>>> import pandas as pd
>>> def read_excel_by_pandas():
with open(r'd:\bigxlsx.xlsx', 'rb') as fp:
content = fp.read()
t0 = time.time()
df = pd.read_excel(content, engine='openpyxl')
t1 = time.time()
print(df.head())
print(df.tail())
print(' %0.3f '%(t1-t0))
>>> read_excel_by_pandas()
id
0 1 90 100 95 99
1 2 90 100 95 99
2 3 90 100 95 99
3 4 90 100 95 99
4 5 90 100 95 99
id
999995 999996 90 100 95 99
999996 999997 90 100 95 99
999997 999998 90 100 95 99
999998 999999 90 100 95 99
999999 1000000 90 100 95 99
81.369
결론: 초대형 Excel 파일을 처리할 때 Openpyxl 모듈의 읽기 전용 모드를 사용하면 지정한 칸의 데이터를 신속하게 열고 얻을 수 있지만 모든 데이터를 자신이 정의한 데이터 구조에 읽어 보지 마세요. 시간이 오래 걸립니다.이에 대해 판다스도 어쩔 수 없었다.파이썬을 사용하여 백만 줄 수준의 초대형 Excel 파일을 빠르게 열 수 있는 방법에 대한 이 글을 소개합니다. 더 많은 파이썬이 excel 파일을 열 수 있는 내용은 이전의 글을 검색하거나 아래의 관련 글을 계속 훑어보십시오. 앞으로 많은 응원 부탁드립니다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.