python PDF 에서 데 이 터 를 추출 하 는 예제

01
머리말
데 이 터 는 데이터 과학 에서 모든 분석의 관건 이다.대부분의 분석 에서 가장 자주 사용 하 는 데이터 세트 유형 은 쉼표 구분 값(csv)표 에 저 장 된 깨끗 한 데이터 이다.그러나 이식 가능 한 문서 형식(pdf)파일 은 가장 자주 사용 되 는 파일 형식 중 하나 이기 때문에 모든 데이터 과학자 들 은 pdf 파일 에서 데 이 터 를 추출 하 는 방법 을 알 고 데 이 터 를'csv'와 같은 형식 으로 변환 하여 모델 을 분석 하거나 구축 하 는 데 사용 해 야 한다.
본 논문 에서 우 리 는 pdf 파일 에서 데이터 표를 어떻게 추출 하 는 지 에 중점 을 두 고 토론 할 것 이다.유사 한 분석 은 텍스트 나 이미지 와 같은 pdf 파일 에서 다른 유형의 데 이 터 를 추출 하 는 데 사용 할 수 있 습 니 다.pdf 파일 에서 데이터 시트 를 추출 하 는 방법 을 설명 하고 모델 을 분석 하고 구축 하 는 데 적합 한 형식 으로 변환 할 것 입 니 다.우 리 는 실례 를 하나 제시 할 것 이다.

02
예제:Python 을 사용 하여 PDF 파일 에서 표를 추출 합 니 다.
a)시 계 를 Excel 로 복사 하여 table 로 저장 합 니 다.1_raw.csv

데 이 터 는 1 차원 형식 으로 저장 되 므 로 반드시 재 구축,정리 와 전환 을 해 야 한다.
b)필요 한 라 이브 러 리 가 져 오기

import pandas as pd
import numpy as np
c)원본 데 이 터 를 가 져 와 데 이 터 를 다시 정의 합 니 다.

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

d)문자열 처리 도 구 를 사용 하여 데이터 꼬 임
우 리 는 위의 표 에서 x5,x6,x7 열 은 백분율 로 표시 되 기 때문에 percent(%)기 호 를 제거 해 야 한 다 는 것 을 알 게 되 었 다.

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))
e)데 이 터 를 디지털 형식 으로 변환
우 리 는 열 x5,x6,x7 의 열 값 데이터 형식 이 string 이라는 것 을 알 았 기 때문에 우 리 는 그것들 을 수치 데이터 로 변환 해 야 한다.다음 과 같다.

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]
f)변환 데이터 의 최종 형식 보기

df4.head(n=5)

g)최종 데 이 터 를 csv 파일 로 내 보 내기

df4.to_csv('table_1_final.csv',index=False)
이상 은 python 이 PDF 에서 데 이 터 를 추출 하 는 예제 의 상세 한 내용 입 니 다.python 에서 PDF 데 이 터 를 추출 하 는 데 관 한 자 료 는 다른 관련 글 을 주목 하 십시오!

좋은 웹페이지 즐겨찾기