PDF 파일에서 NLP를 실행하는 방법은 무엇입니까?

여러 경우에 우리는 PDF 문서에서 정보를 추출해야 합니다. 첫 번째 단계는 PDF 파서를 사용하여 PDF 문서를 원시 텍스트로 변환하는 것입니다. 다음 예에서는 pdf-parse 이를 달성하기 위한 NPM 패키지. 원시 텍스트가 있으면 winkNLP의 readDoc 텍스트를 처리하는 방법. doc 이 API에서 반환된 객체는 named entities과 같은 다양한 정보에 액세스하는 데 사용할 수 있습니다. , sentences 포함 negation , 전체 또는 문장 현명한 sentiment score 그리고 더 많은. 여기에서 NER이라고도 하는 명명된 엔터티의 추출을 설명했습니다. .

// Load wink-nlp package & helpers.
const winkNLP = require( 'wink-nlp' );
const its = require( 'wink-nlp/src/its.js' );
const model = require( 'wink-eng-lite-model' );
const nlp = winkNLP( model );

const fs = require('fs');
const pdf = require( 'pdf-parse' );

// Read PDF file.
let dataBuffer = fs.readFileSync( './sample.pdf' );

// Parse & extract entities from the dataBuffer.
pdf( dataBuffer ).then( function( data ) {
  const doc = nlp.readDoc(data.text);
  console.log( doc.entities().out( its.detail ) );
});

위의 코드는 현재 디렉토리에 있는 PDF 파일을 읽고 감지된 모든 명명된 엔티티를 type 즉 DATE , TIME , MONEY , EMAIL 그리고 더 많은. 각 엔터티는 값과 유형의 두 가지 속성을 포함하는 Javascript 객체의 형태입니다. 예: {value: 'March 15, 1972', type: 'DATE' } .

winkNLP의 English language lite model 사전 훈련된 상태 머신을 사용하여 명명된 엔터티를 인식합니다.

이것은 이력서, 재무 문서 또는 완전한 책에서 의미 있는 정보를 추출하는 데 유용할 수 있습니다.

사진 작성자 Annie Spratt 에 Unsplash

Reference

이 문제에 관하여(PDF 파일에서 NLP를 실행하는 방법은 무엇입니까?), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/winkjs/how-to-run-nlp-on-a-pdf-file-5f5b

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다