PDF 파일에서 NLP를 실행하는 방법은 무엇입니까?

5079 단어 nlpjavascriptnode
여러 경우에 우리는 PDF 문서에서 정보를 추출해야 합니다. 첫 번째 단계는 PDF 파서를 사용하여 PDF 문서를 원시 텍스트로 변환하는 것입니다. 다음 예에서는 pdf-parse 이를 달성하기 위한 NPM 패키지. 원시 텍스트가 있으면 winkNLP의 readDoc 텍스트를 처리하는 방법. doc 이 API에서 반환된 객체는 named entities과 같은 다양한 정보에 액세스하는 데 사용할 수 있습니다. , sentences 포함 negation , 전체 또는 문장 현명한 sentiment score 그리고 더 많은. 여기에서 NER이라고도 하는 명명된 엔터티의 추출을 설명했습니다. .

// Load wink-nlp package & helpers.
const winkNLP = require( 'wink-nlp' );
const its = require( 'wink-nlp/src/its.js' );
const model = require( 'wink-eng-lite-model' );
const nlp = winkNLP( model );

const fs = require('fs');
const pdf = require( 'pdf-parse' );

// Read PDF file.
let dataBuffer = fs.readFileSync( './sample.pdf' );

// Parse & extract entities from the dataBuffer.
pdf( dataBuffer ).then( function( data ) {
  const doc = nlp.readDoc(data.text);
  console.log( doc.entities().out( its.detail ) );
});


위의 코드는 현재 디렉토리에 있는 PDF 파일을 읽고 감지된 모든 명명된 엔티티를 typeDATE , TIME , MONEY , EMAIL 그리고 더 많은. 각 엔터티는 값과 유형의 두 가지 속성을 포함하는 Javascript 객체의 형태입니다. 예: {value: 'March 15, 1972', type: 'DATE' } .

winkNLP의 English language lite model 사전 훈련된 상태 머신을 사용하여 명명된 엔터티를 인식합니다.

이것은 이력서, 재무 문서 또는 완전한 책에서 의미 있는 정보를 추출하는 데 유용할 수 있습니다.

사진 작성자 Annie SprattUnsplash

좋은 웹페이지 즐겨찾기