문자 인식 소프트웨어의 Tesseract를 사용해 보았습니다.

1804 단어 tesseractPython3
OCR을 해보고 싶었기 때문에 조사해 보았습니다. 잊지 않도록 메모를 남겨주세요.

Tesseract 설치 및 사용법



Tesseract 본체를 설치합니다.
apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn

만약을 위해, 사용할 수 있는 언어를 조사합니다. 출력에 jpn 가 들어 있으면 문제 없습니다.
tesseract --list-langs

아래 이미지 데이터 test.png를 읽고 인식 결과를 파일 result.txt로 출력합니다.


tesseract ./test.png ./result -l jpn

내 환경에서 올바르게 인식되었습니다. 덧붙여 확장자는 마음대로 붙일 수 있습니다.

파이썬에서 Tesseract를 사용해보십시오.



파이썬에서 Tesseract를 사용할 수 있도록 pytesseract를 설치합니다.
pip install pytesseract

앞의 이미지 파일 test.jpg 를 똑같이 인식시켜 보자.
import pytesseract
from PIL import Image

result = pytesseract.image_to_string(Image.open('test.png'),lang='jpn') 
print(result)

이것도 올바르게 인식되었습니다.

좋은 웹페이지 즐겨찾기