[PyOCR] 이미지에서 일본어 문자 데이터 추출

5244 단어 Python3OCRPython

Tesseract OCR 가져오기


OCR = 옵티컬 문자 인식(Optical Character Recognition)
Tesseract OCR은 구글에서 만든 OCR 엔진입니다.
각 환경 가져오기 방법(본 기사는 Mac 환경)
https://github.com/tesseract-ocr/tesseract/wiki

일본어 훈련 데이터를 얻다


https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
여기서 얻기tesseract-ocr-3.02.jpn.tar.gz해동 후 획득가능jpn.traineddata이동/usr/local/Cellar/tesseract/3.05.01/share/tessdata여기에는 eng.traineddata 등 각종 언어의 훈련 데이터가 저장되어 있다

PyOCR 가져오기

  • https://github.com/openpaperwork/pyocr
  • 현재 GiitHub의 창고는 보관되어 GiitLab로 옮겨졌다.
  • World / OpenPaperwork / pyocr · GitLab
  • PyOCR은 Python에서 OCR을 사용할 수 있도록 하는 프로그램 라이브러리입니다
    설치하다.
    $ sudo pip3 install pyocr
    
    anaconda의 상황
    https://anaconda.org/auto/pyocr

    샘플 실행


    이미지에서 문자 데이터 추출
    image2text.py
    from PIL import Image
    import sys
    sys.path.append('/path/to/dir')
    
    import pyocr
    import pyocr.builders
    
    tools = pyocr.get_available_tools()
    if len(tools) == 0:
        print("No OCR tool found")
        sys.exit(1)
    tool = tools[0]
    print("Will use tool '%s'" % (tool.get_name()))
    
    langs = tool.get_available_languages()
    print("Available languages: %s" % ", ".join(langs))
    
    txt = tool.image_to_string(
        Image.open('test.png'),
        lang='jpn',
        builder=pyocr.builders.TextBuilder()
    )
    print(txt)
    

    ↑ 야후뉴스 뉴스 분석해봐...
    動画 鵬 ニユ一ス ー 経済
    
    エン夕メ 〉 スポ一$
    
    
    
    。時ー9分更新
    ・ 日報 問題文書と思わず未報告楓
    
    ・西部さん自殺ほう助 2人逮捕塵
    ・AT小型二輪の教習 最短2日に
    ・明石大橋20年 震災無傷の技術趣剛
    ・女性市長 土俵ぁいさっ断られ趣
    ・cc社 買収受け入れの方針】
    ・栄氏が伊調にパヮハラ 認定〔
    ・鬼奴あきれ顔 借金激減を訂正趣剛
    
    もっと見る トピックス一覧
    
    뭐, 못 읽는 것도 아니지만, 사람은 수동으로 교정할 필요가 있다.
    손글씨와 장식 문자가 파멸되다.
    디자인이 없는 텍스트만 나열된 이미지에 유효합니다.
    참고 자료
    OCR 도구 "Tesseract OCR"을 설치하고 Python에서 사용
    Mac로 테슬레이트-ocr를 사용해 봤어요.

    좋은 웹페이지 즐겨찾기