Tesseract 5.0.0을 사용하여 OCR 명함을 사용해 보세요.

3726 단어 tesseract-ocrOCR
이 글은 유니크한 비주얼 주식회사 Advent Calendar 2019 22일째 되는 글이다.

개시하다


이 글에서 테슬레이트를 사용하여 명함을 진행하는 OCR.

설치하다.


기본적으로 따르다GiitHub 설치 단계.
최신 버전의 설치에는 PPA를 등록해야 합니다.
또한tesseract를 설치하는 동시에 일본어용 데이터도 설치했다.
$ add-apt-repository ppa:alex-p/tesseract-ocr-devel -y
$ apt update
$ apt install -y tesseract-ocr libtesseract-dev tesseract-ocr-jpn
버전을 확인합니다.5.00 알파가 안전하게 설치되어 있습니다.
$ tesseract -v
tesseract 5.0.0-alpha-582-g60b07
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found OpenMP 201511
 Found libarchive 3.2.2 zlib/1.2.11 liblzma/5.2.2 bz2lib/1.0.6 liblz4/1.7.1
일본어 쓸 수 있는지 확인하는 김에.
$ tesseract --list-langs
List of available languages (3):
eng
jpn
osd

시험해 보다


GiitHub 사용 방법에 따르면 일본어의 OCR은 다음 명령을 사용하여 실행할 수 있다.
$ tesseract imagename outputbase -l jpn
이 글에서는 OCR 자신의 명함을 시험해 본다.
meishi.jpg 의 이름으로 상술한 그림을 저장하고tesseract를 실행합니다.
$ tesseract meishi.jpg meishi -l jpn
Tesseract Open Source OCR Engine v5.0.0-alpha-582-g60b07 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 219
그러면 다음 파일을 생성할 수 있을 것 같습니다.
meishi.txt
Kazumasa YAMAMOTO

ユニークビジョン株式会

〒160-0022 東京都新宿区新宿2- 1 -12 PMO新宿御苑前4F
http://www.uniquevision.coJp/

                                   TEL : 03-6434-9993
E-mail : [email protected]


중요한 이름은 못 지었고co.jp 잘못됐다고 오인됐지만 대체로 괜찮은 것 같다.
참고로 여러 개의 해석 언어를 지정할 수 있습니다.방금 명함을 영어+일본어로 분석해 보면 다음과 같다.
$ tesseract meishi.jpg meishi -l eng+jpn
Tesseract Open Source OCR Engine v5.0.0-alpha-582-g60b07 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 219
meishi.txt
Kazumasa YAMAMOTO

ユニ ー ク ビジ ョ ン 株 式 会

〒160-0022 東京 都 新宿 区 新宿 2- 1 -12 PMO 新 宿 御苑 前 4F
http://www.uniquevision.co.jp/

TEL : 03-6434-9993
E-mail : [email protected]


일본어 해석 결과에는 부자연스러운 공간이 포함됐지만, URL과 메일 주소가 제대로 식별됐다.

CLI 이외의 방법으로 수행


총결산GiitHub의 Wiki.
이 글은 사용하지 않지만 각 언어에서 사용할 수 있는 패키지, 예를 들어 자동 OCR 대량 명함의 스크립트 등도 간단하게 쓸 수 있다.

총결산


이 글에서 우리는tesseract의 OCR을 사용해 보았다.
쉽게 도입할 수 있어 업무 효율화 등에서 사용하기 쉬울 것 같다.
나는 앞으로도 절차부터 실시해 보려고 한다.

좋은 웹페이지 즐겨찾기