주식 공고 요약 스마트 추출 방법

1031 단어
  ,        ,              ,           。     ,      ,                      。  ,           ,    。                 (   ),                       。
                              ,          (    ),               。        ,        ,        ,    ,     。  ,                            ,    。
            ,                     ,             ,      。  ,               、    (    )          ,        (      )     。
      :

(1) 개 주식 공고 내용 (일반적으로 pdf 형식) 을 일정한 기술 을 통 해 html 형식 으로 전환한다.(2) html 에 있 는 표 table 라벨 을 식별 하고 table 라벨 에 있 는 줄 tr, 열 td 등 라벨 을 더 나 누 어 표 의 관건 적 인 기준 과 데 이 터 를 추출 합 니 다.(3) html 의 남 은 텍스트 를 추출 하고 (html 라벨 제거) 문장 기호 에 따라 문장 으로 나 누 며 각 문장 을 키워드 로 나 누 어 BM 25 알고리즘 에 따라 주어진 템 플 릿 과 가장 비슷 한 몇 개의 문장 을 추출 합 니 다.(4) 추출 한 문장 과 표 의 핵심 데이터 에 따라 요약 으로 구성 합 니 다.이 방법의 유익 한 효 과 는 다음 과 같다. (1) 본 방법 은 공고 표 에 대해 추출 하면 상세 한 항목 데 이 터 를 추출 할 수 있 고 정확도 가 높 으 며 속도 가 빠 르 고 확장 성 이 강하 다.(2) 텍스트 유사 알고리즘 으로 지정 모듈 과 비슷 한 문장 을 계산 하면 되 고 복잡 한 규칙 을 제정 할 필요 가 없다.(3) 지정 모듈 (영역 제품 지정) 은 키워드 만 포함 하면 되 며 전문가 규칙 은 필요 없다.

좋은 웹페이지 즐겨찾기