[PyOCR] 이미지에서 일본어 문자 데이터 추출

Tesseract OCR 가져오기

OCR = 옵티컬 문자 인식(Optical Character Recognition)
Tesseract OCR은 구글에서 만든 OCR 엔진입니다.
각 환경 가져오기 방법(본 기사는 Mac 환경)
https://github.com/tesseract-ocr/tesseract/wiki

일본어 훈련 데이터를 얻다

https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
여기서 얻기tesseract-ocr-3.02.jpn.tar.gz해동 후 획득가능jpn.traineddata이동/usr/local/Cellar/tesseract/3.05.01/share/tessdata여기에는 eng.traineddata 등 각종 언어의 훈련 데이터가 저장되어 있다

PyOCR 가져오기

https://github.com/openpaperwork/pyocr

현재 GiitHub의 창고는 보관되어 GiitLab로 옮겨졌다.

World / OpenPaperwork / pyocr · GitLab

PyOCR은 Python에서 OCR을 사용할 수 있도록 하는 프로그램 라이브러리입니다
설치하다.

$ sudo pip3 install pyocr

anaconda의 상황
https://anaconda.org/auto/pyocr

샘플 실행

이미지에서 문자 데이터 추출
image2text.py

from PIL import Image
import sys
sys.path.append('/path/to/dir')

import pyocr
import pyocr.builders

tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)
tool = tools[0]
print("Will use tool '%s'" % (tool.get_name()))

langs = tool.get_available_languages()
print("Available languages: %s" % ", ".join(langs))

txt = tool.image_to_string(
    Image.open('test.png'),
    lang='jpn',
    builder=pyocr.builders.TextBuilder()
)
print(txt)

↑ 야후뉴스 뉴스 분석해봐...

動画 鵬 ニユ一ス ー 経済

エン夕メ 〉 スポ一$



。時ー9分更新
・ 日報 問題文書と思わず未報告楓

・西部さん自殺ほう助 2人逮捕塵
・AT小型二輪の教習 最短2日に
・明石大橋20年 震災無傷の技術趣剛
・女性市長 土俵ぁいさっ断られ趣
・cc社 買収受け入れの方針】
・栄氏が伊調にパヮハラ 認定〔
・鬼奴あきれ顔 借金激減を訂正趣剛

もっと見る トピックス一覧

뭐, 못 읽는 것도 아니지만, 사람은 수동으로 교정할 필요가 있다.
손글씨와 장식 문자가 파멸되다.
디자인이 없는 텍스트만 나열된 이미지에 유효합니다.
참고 자료
OCR 도구 "Tesseract OCR"을 설치하고 Python에서 사용
Mac로 테슬레이트-ocr를 사용해 봤어요.

Reference

이 문제에 관하여([PyOCR] 이미지에서 일본어 문자 데이터 추출), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/mczkzk/items/393abc70836b9bde2f60

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다