Java에서 OCR (이미지에서 문자 인식)

할 일

OSS의 test4j를 사용하여 이미지에서 텍스트를 가져옵니다.

Maven

mvnrepository에서 POM.xml로 copipe

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

tess4j-4.3.1.jar가 DL됨

Maven 사용할 수없는 경우 여기에서

일본어 인식 파일

GitHub 리포지토리에서 일본어 인식 파일 (kr.traineddata) 가져 오기

출처

OcrTrial.java

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class OcrTrial {
    public static void main(String[] args) throws IOException, TesseractException {
        // 画像を読み込む
        File file = new File("C:\\work\\INPUT.JPG");
        BufferedImage img = ImageIO.read(file);

        ITesseract tesseract = new Tesseract();
        tesseract.setDatapath("C:\\work"); // 言語ファイル（jpn.traineddata））の場所を指定
        tesseract.setLanguage("jpn"); // 解析言語は「日本語」を指定

        // 解析
        String str = tesseract.doOCR(img);

        // 結果
        System.out.println(str);
    }
}

INPUT으로 만든 이미지 파일

출력된 결과

요약

실수는 여기 정도입니다.
〇(픽토그램)
× (피빅토 그램)

명확하게 문자로 판별 할 수있는 이미지라면 인식률이 높습니다.

다음 번

다양한 이미지를 사용해보십시오
그레이 스케일
Class Tesseract 함수 이해 및 사용

Reference

이 문제에 관하여(Java에서 OCR (이미지에서 문자 인식)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ohwer/items/4199cee2bc7fed6072ed

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다