PDF/TIFF Document Text Detection

PDF/TIFF Document Text Detection이란?



Google Cloud Platform에서 CloudVisionAPI라는 이미지 분석을 수행하는 API 중 하나입니다.
CloudVisionAPI에는 Text Detection이라는 이미지의 OCR 기능이 있습니다.

유사한 서비스



기본적으로 JPG/PNG내의 텍스트를 검출하는 것이 많다
  • Amazon Rekognition
  • Azure Computer Vision
  • IBM Watson: Visual Recognition

  • Tesseract OCR 테셀락트와 읽는다. Hewlett-Packard가 개발하여 Google이 OSS화한 것
    등.

  • AWS나 Azure와 같은 클라우드 서비스를 제공하고 있는 곳에서는, 기능으로서 준비되어 있다.
    그리고는 파나소닉 가 내놓기도 한다.

    왜 PDF/TIFF Document Text Detection인가?


  • 다만 조사하고 있는 타이밍(※2019/4월 시점)에서 GA가 되었다.
  • Go 라이브러리가 존재했습니다.
  • PDF를 직접 OCR 할 수있는 API가 다른 것은 아니었다 (※ 다른 API에서는 JPG/PNG의 OCR을 실시하는 것이 주용도)

  • htps : // 아 ws. 아마존. m / jp / xt 등 ct /
  • AWS도 PDF를 직접 OCR 할 수있는 것을 내고 있지만 일본어 미대응 같다


  • 사용하는 것





    주의점


  • 결과는 GCS에 json 형식으로 출력되므로 사용할 때는 GCS에서 json을 가져와야합니다.
  • 비교적 복잡한 json이므로 Go로 취급하는 것은 힘들었다.

  • 소스 코드



    결과



    1. 국토 교통성: 令和元年度「年末年始の輸送等に関する安全総点検」の取組を実施します htps //w w. mぃt. . jp / repo rt / p rs / honten t / 001317333. pdf
    결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / b / b / ms / r / rest lt / 1. txt
    문제없이 OCR 할 수 있습니다.

    2. 경제 산업성: 生産性向上特別措置法【生産性革命法】及び産業競争力強化法等の一部を改正する法律の概要 htps //w w. 메치. . jp/포이cy/지조_사이세이/세이씨세이소치호우카호우/pdf/가자-1. pdf

    결과 : htps : // 기주 b. 이 m / y 타키 2014 / gcppdf - 치 f - 쿠멘 t - xt - c chion / bb / bs r / r / lt / 2. txt
    단조된 PDF에서도 문제없이 OCR화되고 있다

    3. 令和元年度 情報セキュリティマネジメント試験 午後 問題 htps //w w. 먼저 c. 가득. . jp / 1_04 네이_스키루 / 몬다이_ 가이 토_2019h31_2/2019r01 아_sg_pm_qs. pdf

    비교적 긴 PDF도 OCR화되어 있고, 도표내의 텍스트도 OCR되어 있지만 과연 시험 문제라면 문장만이라고 이해할 수 없는 곳도 있다.

    또한 json을 일부 마스크 한 것도 리포지토리 내에서 있으므로 그쪽도 참조.

    요약


  • PDF/TIFF Document Text Detection 상당히 좋다. 즉시 사용할 수 있습니다
  • GCS마저 PDF를 넣어 두면, GCS에 파일에 출력이 나오므로 사용하기 쉽다.
  • 이번 리포지토리에 결과는 올리지 않았지만, 시도한 결과 필기한 사진을 PDF화한 것에 대해서 실행해도 텍스트를 추출할 수 있었다.
  • GCP는 역시 기계 학습계에 강하다고 생각한다. 앞으로는 데이터를 어떻게 활용해 나갈까 하는 시대가 되어 갈 것이라고 생각하므로, 적극적으로 이러한 기술을 사용할 수 있도록 해 가고 싶네요.
  • 좋은 웹페이지 즐겨찾기