논문 요약: 여러 문서에서 중요 정보 추출 및 테이블 생성

1618 단어 NLP
신경이 쓰인 논문을 읽고 나름대로 정리하는 시리즈입니다.

여러 문서에서 중요 정보 추출 및 표 생성 (돗토리 대학, 류야 대학, 언어 처리 학회 2018)



선행 연구



word2Vec을 사용하여 wikipedia의 성 관련 페이지 → 단어 전용 → 벡터 → 클러스터링 → 테이블 생성

본 연구



word2Vec을 이용하여 wikipedia의 성 관련 페이지→문장 전체→벡터→(x-means법) 클러스터링→테이블 생성(각 클러스터의 중요도 점수 산출)
  • 단어 → 문장 : 단어로는 정보가 불충분
  • 정리된 테이블의 열별 정보 추출 재현률 62% → 90%


  • (출처: 상기 논문)

    본 논문의 연구 부분


  • 한 문장에 다른 복수의 내용이 내포되고 있을 때: 인구는 10명으로, 면적은 100m2. →「인구는 10명」과 「면적은 100㎡」로 분해해야 한다.
  • 구문 분석 (예 : KNP) → 문의로 문장으로 구분한다.
  • 격분석(예: KNP) → 분명히, 각 문장의 말미를 잘 문장 종료형으로 변형한다.
  • 각 문장의 격요소 마다 형태소 해석→명사만, 품사 분류 1이 대명사, 수, 비자립, 부사 가능 이외를 추출.
  • 단어 벡터 모델 : fastText (2 층 NN. 숨겨진 계층은 단어의 분산 표현에 해당). 학습 데이터는 wikipedia 전체 기사, 단어 벡터는 300 차원.
  • 추출한 단어의 벡터의 평균값을 그 격 요소 벡터로 한다.
  • 격 요소 벡터의 합을 문 벡터로 한다.

  • 클러스터별 중요도 계산(Xmeans 방법)
  • 밀집율이 높은 클러스터의 중요도> 밀집율이 낮은 클러스터의 중요도
  • 클러스터의 문장이 서로 닮았다 → 밀집되어있다

  • 많은 문장을 포함한 클러스터의 중요도 > 소수의 문장을 포함한 클러스터의 중요도
  • 100개의 문장 중 20개가 k번째 클러스터로 분류된 →k번째 클러스터의 중요도 ck=20/100=0.2.


  • 정보 추출 평가 방법
  • F값 사용.

  • 이하, 본 논문이 우수한 예


  • (출처: 상기 논문)

    좋은 웹페이지 즐겨찾기