PDF 이미지 인식 OCR을 위해 Python을 사용하는 방법

장면 사용


이미지 식별을 사용하면 그림 속의 정보를 신속하게 추출할 수 있어 편리하고 효율적이다.
Python은 PDF를 직접 식별할 수 없기 때문에 PDF를 식별하려면 먼저 PDF를 그림으로 전환한 다음에 식별해야 한다.

필수 도구

  • Python 
  • 3.7 이상 버전 설치 가능
  • tesseract-ocr 
  • 다운로드 주소:https://github.com/UB-Mannheim/tesseract/wiki 최신 버전을 사용하면 됩니다.
  • 필요한 라이브러리입니다
  • 
    pip install pillow
    pip install opencv-python
    pip install fitz
    pip install PyMuPDF
    pip install pytesseract

    코드 예제

    
    from PIL import Image
    import os
    import pytesseract 
    import cv2 as cv
    import fitz
    
    def pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle):
      #  PDF 
      pdf = fitz.open(pdfPath)
      #  PDF
      for pg in range(0, pdf.pageCount):
        page = pdf[pg]
        #  
        trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle)
        pm = page.getPixmap(matrix=trans, alpha=False)
        #  
        pm.writePNG(imgPath+str(pg)+".png")
        #pm.writePNG(imgPath)
      pdf.close()
    pdf_path ='D:/123.pdf'
    img_path ='D:/123.png'
    pdf_image(pdf_path,img_path,5,5,0)
    #  opencv
    img=cv.imread(img_path)
    text=pytesseract.image_to_string(Image.fromarray(img),lang='chi_tra')
    #  opencv 
    # text=pytesseract.image_to_string(Image.open(img_path))
    print(text)

    총결산


    선명한 글자 그림을 식별할 때 정확도가 매우 높다
    그런데 필기체를 인식하면 잘 안 나와요.

    주의사항


    tesseract-ocr를 설치할 때 대응하는 언어를 선택해야 합니다. 그렇지 않으면 정상적으로 사용할 수 없습니다.
    이상은Python을 사용하여 PDF 이미지 식별 OCR를 어떻게 하는지에 대한 상세한 내용입니다. 더 많은python pdf 이미지 식별ocr에 대한 자료는 저희 다른 관련 글을 주목해 주십시오!

    좋은 웹페이지 즐겨찾기