python PDF 에서 데 이 터 를 추출 하 는 예제

01
머리말
데 이 터 는 데이터 과학 에서 모든 분석의 관건 이다.대부분의 분석 에서 가장 자주 사용 하 는 데이터 세트 유형 은 쉼표 구분 값(csv)표 에 저 장 된 깨끗 한 데이터 이다.그러나 이식 가능 한 문서 형식(pdf)파일 은 가장 자주 사용 되 는 파일 형식 중 하나 이기 때문에 모든 데이터 과학자 들 은 pdf 파일 에서 데 이 터 를 추출 하 는 방법 을 알 고 데 이 터 를'csv'와 같은 형식 으로 변환 하여 모델 을 분석 하거나 구축 하 는 데 사용 해 야 한다.
본 논문 에서 우 리 는 pdf 파일 에서 데이터 표를 어떻게 추출 하 는 지 에 중점 을 두 고 토론 할 것 이다.유사 한 분석 은 텍스트 나 이미지 와 같은 pdf 파일 에서 다른 유형의 데 이 터 를 추출 하 는 데 사용 할 수 있 습 니 다.pdf 파일 에서 데이터 시트 를 추출 하 는 방법 을 설명 하고 모델 을 분석 하고 구축 하 는 데 적합 한 형식 으로 변환 할 것 입 니 다.우 리 는 실례 를 하나 제시 할 것 이다.

02
예제:Python 을 사용 하여 PDF 파일 에서 표를 추출 합 니 다.
a)시 계 를 Excel 로 복사 하여 table 로 저장 합 니 다.1_raw.csv

데 이 터 는 1 차원 형식 으로 저장 되 므 로 반드시 재 구축,정리 와 전환 을 해 야 한다.
b)필요 한 라 이브 러 리 가 져 오기


import pandas as pd
import numpy as np

c)원본 데 이 터 를 가 져 와 데 이 터 를 다시 정의 합 니 다.


df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

d)문자열 처리 도 구 를 사용 하여 데이터 꼬 임
우 리 는 위의 표 에서 x5,x6,x7 열 은 백분율 로 표시 되 기 때문에 percent(%)기 호 를 제거 해 야 한 다 는 것 을 알 게 되 었 다.


df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)데 이 터 를 디지털 형식 으로 변환
우 리 는 열 x5,x6,x7 의 열 값 데이터 형식 이 string 이라는 것 을 알 았 기 때문에 우 리 는 그것들 을 수치 데이터 로 변환 해 야 한다.다음 과 같다.


df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)변환 데이터 의 최종 형식 보기


df4.head(n=5)

g)최종 데 이 터 를 csv 파일 로 내 보 내기


df4.to_csv('table_1_final.csv',index=False)

이상 은 python 이 PDF 에서 데 이 터 를 추출 하 는 예제 의 상세 한 내용 입 니 다.python 에서 PDF 데 이 터 를 추출 하 는 데 관 한 자 료 는 다른 관련 글 을 주목 하 십시오!

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

로마 숫자를 정수로 또는 그 반대로 변환

그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다