PDF/TIFF Document Text Detection
PDF/TIFF Document Text Detection이란?
Google Cloud Platform에서 CloudVisionAPI라는 이미지 분석을 수행하는 API 중 하나입니다.
CloudVisionAPI에는 Text Detection이라는 이미지의 OCR 기능이 있습니다.
유사한 서비스
기본적으로 JPG/PNG내의 텍스트를 검출하는 것이 많다
Tesseract OCR 테셀락트와 읽는다. Hewlett-Packard가 개발하여 Google이 OSS화한 것
등.
AWS나 Azure와 같은 클라우드 서비스를 제공하고 있는 곳에서는, 기능으로서 준비되어 있다.
그리고는 파나소닉 가 내놓기도 한다.
왜 PDF/TIFF Document Text Detection인가?
htps : // 아 ws. 아마존. m / jp / xt 등 ct /
사용하는 것
주의점
소스 코드
결과
1. 국토 교통성: 令和元年度「年末年始の輸送等に関する安全総点検」の取組を実施します
htps //w w. mぃt. . jp / repo rt / p rs / honten t / 001317333. pdf
결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / b / b / ms / r / rest lt / 1. txt
문제없이 OCR 할 수 있습니다.
2. 경제 산업성: 生産性向上特別措置法【生産性革命法】及び産業競争力強化法等の一部を改正する法律の概要
htps //w w. 메치. . jp/포이cy/지조_사이세이/세이씨세이소치호우카호우/pdf/가자-1. pdf
결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / bb / bs r / r / lt / 2. txt
단조된 PDF에서도 문제없이 OCR화되고 있다
3. 令和元年度 情報セキュリティマネジメント試験 午後 問題
htps //w w. 먼저 c. 가득. . jp / 1_04 네이_스키루 / 몬다이_ 가이 토_2019h31_2/2019r01 아_sg_pm_qs. pdf
비교적 긴 PDF도 OCR화되어 있고, 도표내의 텍스트도 OCR되어 있지만 과연 시험 문제라면 문장만이라고 이해할 수 없는 곳도 있다.
또한 json을 일부 마스크 한 것도 리포지토리 내에서 있으므로 그쪽도 참조.
요약
1. 국토 교통성:
令和元年度「年末年始の輸送等に関する安全総点検」の取組を実施します
htps //w w. mぃt. . jp / repo rt / p rs / honten t / 001317333. pdf결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / b / b / ms / r / rest lt / 1. txt
문제없이 OCR 할 수 있습니다.
2. 경제 산업성:
生産性向上特別措置法【生産性革命法】及び産業競争力強化法等の一部を改正する法律の概要
htps //w w. 메치. . jp/포이cy/지조_사이세이/세이씨세이소치호우카호우/pdf/가자-1. pdf결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / bb / bs r / r / lt / 2. txt
단조된 PDF에서도 문제없이 OCR화되고 있다
3.
令和元年度 情報セキュリティマネジメント試験 午後 問題
htps //w w. 먼저 c. 가득. . jp / 1_04 네이_스키루 / 몬다이_ 가이 토_2019h31_2/2019r01 아_sg_pm_qs. pdf비교적 긴 PDF도 OCR화되어 있고, 도표내의 텍스트도 OCR되어 있지만 과연 시험 문제라면 문장만이라고 이해할 수 없는 곳도 있다.
또한 json을 일부 마스크 한 것도 리포지토리 내에서 있으므로 그쪽도 참조.
요약
Reference
이 문제에 관하여(PDF/TIFF Document Text Detection), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/takky/items/b22eed339caf79620a45텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)