Java에서 OCR (이미지에서 문자 인식)
할 일
OSS의 test4j를 사용하여 이미지에서 텍스트를 가져옵니다.
Maven
mvnrepository에서 POM.xml로 copipe
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
tess4j-4.3.1.jar가 DL됨
Maven 사용할 수없는 경우 여기에서
일본어 인식 파일
GitHub 리포지토리에서 일본어 인식 파일 (kr.traineddata) 가져 오기
출처
OcrTrial.java
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import javax.imageio.ImageIO;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class OcrTrial {
public static void main(String[] args) throws IOException, TesseractException {
// 画像を読み込む
File file = new File("C:\\work\\INPUT.JPG");
BufferedImage img = ImageIO.read(file);
ITesseract tesseract = new Tesseract();
tesseract.setDatapath("C:\\work"); // 言語ファイル(jpn.traineddata))の場所を指定
tesseract.setLanguage("jpn"); // 解析言語は「日本語」を指定
// 解析
String str = tesseract.doOCR(img);
// 結果
System.out.println(str);
}
}
INPUT으로 만든 이미지 파일
출력된 결과
요약
실수는 여기 정도입니다.
〇(픽토그램)
× (피빅토 그램)
명확하게 문자로 판별 할 수있는 이미지라면 인식률이 높습니다.
다음 번
다양한 이미지를 사용해보십시오
그레이 스케일
Class Tesseract 함수 이해 및 사용
Reference
이 문제에 관하여(Java에서 OCR (이미지에서 문자 인식)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ohwer/items/4199cee2bc7fed6072ed텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)