PDF/TIFF Document Text Detection

PDF/TIFF Document Text Detection이란?

Google Cloud Platform에서 CloudVisionAPI라는 이미지 분석을 수행하는 API 중 하나입니다.
CloudVisionAPI에는 Text Detection이라는 이미지의 OCR 기능이 있습니다.

유사한 서비스

기본적으로 JPG/PNG내의 텍스트를 검출하는 것이 많다

Tesseract OCR 테셀락트와 읽는다. Hewlett-Packard가 개발하여 Google이 OSS화한 것
등.

AWS나 Azure와 같은 클라우드 서비스를 제공하고 있는 곳에서는, 기능으로서 준비되어 있다.
그리고는 파나소닉 가 내놓기도 한다.

다만 조사하고 있는 타이밍(※2019/4월 시점)에서 GA가 되었다.

Go 라이브러리가 존재했습니다.

PDF를 직접 OCR 할 수있는 API가 다른 것은 아니었다 (※ 다른 API에서는 JPG/PNG의 OCR을 실시하는 것이 주용도)

AWS도 PDF를 직접 OCR 할 수있는 것을 내고 있지만 일본어 미대응 같다

결과는 GCS에 json 형식으로 출력되므로 사용할 때는 GCS에서 json을 가져와야합니다.

비교적 복잡한 json이므로 Go로 취급하는 것은 힘들었다.

1. 국토 교통성: 令和元年度「年末年始の輸送等に関する安全総点検」の取組を実施します htps //w w. mぃt. . jp / repo rt / p rs / honten t / 001317333. pdf
결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / b / b / ms / r / rest lt / 1. txt
문제없이 OCR 할 수 있습니다.

2. 경제 산업성:

生産性向上特別措置法【生産性革命法】及び産業競争力強化法等の一部を改正する法律の概要

htps //w w. 메치. . jp/포이cy/지조_사이세이/세이씨세이소치호우카호우/pdf/가자-1. pdf

결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / bb / bs r / r / lt / 2. txt
단조된 PDF에서도 문제없이 OCR화되고 있다

3. 令和元年度情報セキュリティマネジメント試験　午後問題 htps //w w. 먼저 c. 가득. . jp / 1_04 네이_스키루 / 몬다이_ 가이 토_2019h31_2/2019r01 아_sg_pm_qs. pdf

비교적 긴 PDF도 OCR화되어 있고, 도표내의 텍스트도 OCR되어 있지만 과연 시험 문제라면 문장만이라고 이해할 수 없는 곳도 있다.

또한 json을 일부 마스크 한 것도 리포지토리 내에서 있으므로 그쪽도 참조.

PDF/TIFF Document Text Detection 상당히 좋다. 즉시 사용할 수 있습니다

GCS마저 PDF를 넣어 두면, GCS에 파일에 출력이 나오므로 사용하기 쉽다.

이번 리포지토리에 결과는 올리지 않았지만, 시도한 결과 필기한 사진을 PDF화한 것에 대해서 실행해도 텍스트를 추출할 수 있었다.

GCP는 역시 기계 학습계에 강하다고 생각한다. 앞으로는 데이터를 어떻게 활용해 나갈까 하는 시대가 되어 갈 것이라고 생각하므로, 적극적으로 이러한 기술을 사용할 수 있도록 해 가고 싶네요.

이 문제에 관하여(PDF/TIFF Document Text Detection), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/takky/items/b22eed339caf79620a45

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다