[PyOCR] 이미지에서 일본어 문자 데이터 추출
Tesseract OCR 가져오기
OCR = 옵티컬 문자 인식(Optical Character Recognition)
Tesseract OCR은 구글에서 만든 OCR 엔진입니다.
각 환경 가져오기 방법(본 기사는 Mac 환경)
https://github.com/tesseract-ocr/tesseract/wiki
일본어 훈련 데이터를 얻다
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
여기서 얻기
tesseract-ocr-3.02.jpn.tar.gz
해동 후 획득가능jpn.traineddata
이동/usr/local/Cellar/tesseract/3.05.01/share/tessdata
여기에는 eng.traineddata
등 각종 언어의 훈련 데이터가 저장되어 있다PyOCR 가져오기
설치하다.
$ sudo pip3 install pyocr
anaconda의 상황https://anaconda.org/auto/pyocr
샘플 실행
이미지에서 문자 데이터 추출
image2text.py
from PIL import Image
import sys
sys.path.append('/path/to/dir')
import pyocr
import pyocr.builders
tools = pyocr.get_available_tools()
if len(tools) == 0:
print("No OCR tool found")
sys.exit(1)
tool = tools[0]
print("Will use tool '%s'" % (tool.get_name()))
langs = tool.get_available_languages()
print("Available languages: %s" % ", ".join(langs))
txt = tool.image_to_string(
Image.open('test.png'),
lang='jpn',
builder=pyocr.builders.TextBuilder()
)
print(txt)
↑ 야후뉴스 뉴스 분석해봐...
動画 鵬 ニユ一ス ー 経済
エン夕メ 〉 スポ一$
。時ー9分更新
・ 日報 問題文書と思わず未報告楓
・西部さん自殺ほう助 2人逮捕塵
・AT小型二輪の教習 最短2日に
・明石大橋20年 震災無傷の技術趣剛
・女性市長 土俵ぁいさっ断られ趣
・cc社 買収受け入れの方針】
・栄氏が伊調にパヮハラ 認定〔
・鬼奴あきれ顔 借金激減を訂正趣剛
もっと見る トピックス一覧
뭐, 못 읽는 것도 아니지만, 사람은 수동으로 교정할 필요가 있다.손글씨와 장식 문자가 파멸되다.
디자인이 없는 텍스트만 나열된 이미지에 유효합니다.
참고 자료
OCR 도구 "Tesseract OCR"을 설치하고 Python에서 사용
Mac로 테슬레이트-ocr를 사용해 봤어요.
Reference
이 문제에 관하여([PyOCR] 이미지에서 일본어 문자 데이터 추출), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/mczkzk/items/393abc70836b9bde2f60텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)