Python 3.6 tesseract-ocr 를 사용 하 는 정확 한 방법

2007 단어 pythontesseract-orc
Tesseract 소개
tesseract 는 매우 좋 은 OCR 엔진 으로 현재 의 문 제 는 최신 중국어 자료 가 상대 적 으로 적 고 유행 이 지 났 으 며 정확 하지 않 은 정보 가 많다 는 것 이다.
tesseract 는 google 이 지원 하 는 오픈 소스 ocr 프로젝트 입 니 다.프로젝트 주소:https://github.com/tesseract-ocr/tesseract현재 최신 소스 코드 는 여기에서 다운로드 할 수 있 습 니 다.
실제 tesseract ocr 를 사용 하 는 방법 도 두 가지 가 있 습 니 다.1.동적 라 이브 러 리 방식 libtesseract  2.실행 프로그램 방식 tesseract.exe
환경.
  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10
  • 설치 하 다.
    1.tesseract-orc
  • Tesseract:오픈 소스 OCR 식별 엔진,초기 Tesseract 엔진 은 HP 실험실 에서 개발 한 후에 오픈 소스 소프트웨어 산업 에 기 여 했 고 Google 을 통 해 개선 하여 bug 를 제거 하고 최적화 시 켜 다시 발표 했다.
  • 설치 할 때 스스로 설 치 된 언어 를 선택해 야 합 니 다.일부 다른 국가의 언어 는 설 치 를 선택 하지 않 아 도 됩 니 다.저 는 중국어,영어,일본 어 를 설 치 했 습 니 다.설치 과정 은 다른 소프트웨어 와 같다.
    2.pytesseractpip install pytesseract환경 설정
    1.tesseract-orc 경로 설정
    기본적으로 tesseract-orc 는 시스템 의 path 경로 에 추가 되 지 않 습 니 다.사용 할 때FileNotFoundError: [WinError 2] 시스템 에서 지정 한 파일 을 찾 을 수 없 는 오류 가 발생 합 니 다.
    해결 방법:
  • 방법 1:C:\Program Files(x86)\Tesseract-OCR 을 시스템 경로 에 추가(경 로 는 설치 과정 에 따라 다 름)
  • 방법 2:pytesseract.py 파일 수정
  • 훈련 집의 위 치 를 설정 하 다
    다운로드 한 기본 훈련 집 도 시스템 경로 에 추가 되 지 않 아 오류 가 발생 할 수 있 습 니 다.
    
    pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')
    
    해결 방법:
    환경 변수 설정TESSDATA_PREFIX
    C:\Program Files (x86)\Tesseract-OCR\tessdata
    인 스 턴 스 프로그램
    
    import pytesseract
    from PIL import Image
    image = Image.open('test.png')
    code = pytesseract.image_to_string(image)
    print(code)
    더 많은 참고:https://pypi.python.org/pypi/pytesseract
    총결산
    이상 은 이 글 의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 참고 학습 가 치 를 가지 기 를 바 랍 니 다.여러분 의 저희 에 대한 지지 에 감 사 드 립 니 다.더 많은 내용 을 알 고 싶다 면 아래 링크 를 보 세 요.

    좋은 웹페이지 즐겨찾기