Java에서 OCR (이미지에서 문자 인식)

4875 단어 OCR자바Maven

할 일



OSS의 test4j를 사용하여 이미지에서 텍스트를 가져옵니다.

Maven



mvnrepository에서 POM.xml로 copipe
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

tess4j-4.3.1.jar가 DL됨


Maven 사용할 수없는 경우 여기에서

일본어 인식 파일



GitHub 리포지토리에서 일본어 인식 파일 (kr.traineddata) 가져 오기

출처



OcrTrial.java
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class OcrTrial {
    public static void main(String[] args) throws IOException, TesseractException {
        // 画像を読み込む
        File file = new File("C:\\work\\INPUT.JPG");
        BufferedImage img = ImageIO.read(file);

        ITesseract tesseract = new Tesseract();
        tesseract.setDatapath("C:\\work"); // 言語ファイル(jpn.traineddata))の場所を指定
        tesseract.setLanguage("jpn"); // 解析言語は「日本語」を指定

        // 解析
        String str = tesseract.doOCR(img);

        // 結果
        System.out.println(str);
    }
}

INPUT으로 만든 이미지 파일





출력된 결과





요약



실수는 여기 정도입니다.
〇(픽토그램)
× (피빅토 그램)

명확하게 문자로 판별 할 수있는 이미지라면 인식률이 높습니다.

다음 번



다양한 이미지를 사용해보십시오
그레이 스케일
Class Tesseract 함수 이해 및 사용

좋은 웹페이지 즐겨찾기