Lucene TF - IDF 상관 성 계산 공식

2183 단어 Lucenetfidf
Lucene 은 키워드 조 회 를 할 때 기본적으로 TF - IDF 알고리즘 으로 키워드 와 문서 의 상관 성 을 계산 하고 이 데이터 로 정렬 합 니 다.
TF: 주파수, IDF: 역방향 문서 주파수, TF - IDF 는 통계 적 방법 이거 나 벡터 공간 모델 이 라 고 불 리 며 이름 은 복잡 하 게 들 리 지만 사실은 두 가지 간단 한 규칙 만 포함 되 어 있다.
  • 어떤 단어 나 구 는 한 문장 에 나타 나 는 횟수 가 많 을 수록 관련 이 있다
  • .
  • 전체 문서 집합 에 어떤 단 어 를 포함 하 는 문서 의 수량 이 적 을 수록 이 단 어 는 중요 하 다
  • 그래서 하나의 term 의 TF - IDF 관련 성 은 TF * IDF 와 같다.
    이 두 가지 규칙 은 매우 간단 하 다. 이것 이 바로 TF - IDF 의 핵심 규칙 이다. 두 번 째 규칙 은 사실 결함 이 있다. 그 는 단순히 텍스트 의 빈도 가 작은 단어 가 중요 할 수록 텍스트 의 빈도 가 큰 단어 가 쓸모 가 없다 고 생각 하 는데 이것 은 완전히 정확 한 것 이 아니다.단어의 중요 도와 특징 어의 분포 상황 을 효과적으로 반영 하지 못 한다. 예 를 들 어 웹 문 서 를 검색 할 때 HTML 의 서로 다른 구조의 특징 어 에서 글 내용 에 대한 반영 정도 가 다 르 기 때문에 서로 다른 가중치 가 있어 야 한다.
    TF - IDF 의 장점 은 알고리즘 이 간단 하고 연산 속도 가 빠르다 는 것 이다
    Lucene 은 프로 그래 밍 가능 한 줄 을 향상 시 키 기 위해 상기 규칙 을 확대 했다. 즉, 프로 그래 밍 인 터 페 이 스 를 추가 하여 서로 다른 조회 에 대해 가중치 귀 일 화 를 했 지만 핵심 공식 은 TF * IDF 이다.
    Lucene 알고리즘 공식 은 다음 과 같다.
    score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )
  • tf(t in d ), = frequency½
  • idf (t) = 1 + log (문서 총수 / (t 포함 문서 수 + 1)
  • coord (q, d) 평 점 인자.더 많은 조회 항목 이 한 문서 에 있 을 수록 일부 문서 의 일치 프로그램 이 높다 는 것 을 설명 한다. 예 를 들 어 'A B C' 를 조회 할 수록 A / B / c3 단 어 를 동시에 포함 하 는 문 서 는 3 점 이 고 A / B 만 포함 하 는 문 서 는 2 점 이 며 coord 는 query 에서 꺼 질 수 있다
  • .
  • query Norm (q) 조회 의 표준 조회 로 서로 다른 조회 간 에 비교 할 수 있 습 니 다
  • t. getBoost () 와 norm (t, d) 은 모두 프로 그래 밍 가능 한 인터페이스 로 field / 문서 / query 항목 의 가중치
  • 를 조정 할 수 있 습 니 다.
    각종 프로 그래 밍 플러그 는 매우 번 거 로 워 보이 기 때문에 사용 하지 않 아 도 되 기 때문에 우 리 는 Lucence 의 계산 공식 을 간소화 할 수 있다.
    score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )
    결론.
  • TF - IDF 알고리즘 은 term 를 바탕 으로 하 는 것 입 니 다. term 는 가장 작은 단어 단위 입 니 다. 이 는 단어 알고리즘 이 통 계 를 바탕 으로 하 는 ranking 에 매우 중요 하 다 는 것 을 의미 합 니 다. 만약 에 중국어 에 한 글자 로 나 누 면 모든 의미 의 상관 성 을 잃 을 수 있 습 니 다. 이때 검색 은 효율 적 인 전문 일치 방법
  • 을 만 들 었 을 뿐 입 니 다.
  • 규칙 1 에 따라 stop word 를 반드시 제거 해 야 한다. 이 단어 들 이 나타 나 는 빈도 가 너무 높 기 때문에 TF 의 수치 가 매우 커서 점수 계산 결 과 를 심각하게 방해 할 수 있다
  • .
  • TF 는 색인 을 생 성 할 때 계산 하고 저장 하 며, IDF 는 query 에서 가 져 옵 니 다. t 가 포 함 된 문서 수 = length (term 의 posting list)
  • 좋은 웹페이지 즐겨찾기