파이썬으로 파워 포인트에서 텍스트를 추출! (테이블에도 대응)

이 기사에 대하여

회의의 의사록등을 메일로 보내는 경우, 슬라이드의 문자만 원하는 경우가 있었으므로, 조금 코드를 써 보았습니다. 테이블의 문자를 빼내는 것이 약간 번거로웠습니다.

준비된 PowerPoint 샘플 파일 (sampleFile.pptx로 동일한 폴더에 보관)

결과

File name:  sampleFile.pptx 

-- Page 1 --
タイトルです

サブタイトルです

-- Page 2 --
２ページ目です。
テキストボックスです♪

果物, 八百屋さんA, スーパーB, 
バナナ, 100円, 200円, 
リンゴ, 150円, 140円, 

テーブルのサンプル

코드


import pptx
from glob import glob

for fname in glob ('*.pptx'):
    print ('File name: ', fname, '\n')
    prs = pptx.Presentation(fname)

    for i, sld in enumerate(prs.slides, start=1):

        print(f'-- Page {i} --')

        for shp in sld.shapes:

            if shp.has_text_frame:
                print (shp.text)

            if shp.has_table:
                tbl = shp.table
                row_count = len(tbl.rows)
                col_count = len(tbl.columns)
                for r in range(0, row_count):                 
                    text=''
                    for c in range(0, col_count):
                        cell = tbl.cell(r,c)
                        paragraphs = cell.text_frame.paragraphs 
                        for paragraph in paragraphs:
                            for run in paragraph.runs:
                                text+=run.text
                            text+=', '
                    print (text)
            print ()

같은 폴더에 있는 pptx 확장자를 포함하는 모든 파일의 텍스트를 추출합니다.

참고

파워 포인트 (pptx) 테이블 스크래핑
htps : // 코 m / 바보 / ms / 아 3 아 4 아 00 아에다 9d19에 41b6

PDF, Word, PowerPoint, Excel 파일에서 텍스트 부분을 일괄 추출하는 방법
htps : // 코 m / 바보 / ms / 아 3 아 4 아 00 아에다 9d19에 41b6

Reference

이 문제에 관하여(파이썬으로 파워 포인트에서 텍스트를 추출! (테이블에도 대응)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Kent-747/items/21d1dee3d486f38c4b3f

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다