Lucene TF - IDF 상관 성 계산 공식
TF: 주파수, IDF: 역방향 문서 주파수, TF - IDF 는 통계 적 방법 이거 나 벡터 공간 모델 이 라 고 불 리 며 이름 은 복잡 하 게 들 리 지만 사실은 두 가지 간단 한 규칙 만 포함 되 어 있다.
이 두 가지 규칙 은 매우 간단 하 다. 이것 이 바로 TF - IDF 의 핵심 규칙 이다. 두 번 째 규칙 은 사실 결함 이 있다. 그 는 단순히 텍스트 의 빈도 가 작은 단어 가 중요 할 수록 텍스트 의 빈도 가 큰 단어 가 쓸모 가 없다 고 생각 하 는데 이것 은 완전히 정확 한 것 이 아니다.단어의 중요 도와 특징 어의 분포 상황 을 효과적으로 반영 하지 못 한다. 예 를 들 어 웹 문 서 를 검색 할 때 HTML 의 서로 다른 구조의 특징 어 에서 글 내용 에 대한 반영 정도 가 다 르 기 때문에 서로 다른 가중치 가 있어 야 한다.
TF - IDF 의 장점 은 알고리즘 이 간단 하고 연산 속도 가 빠르다 는 것 이다
Lucene 은 프로 그래 밍 가능 한 줄 을 향상 시 키 기 위해 상기 규칙 을 확대 했다. 즉, 프로 그래 밍 인 터 페 이 스 를 추가 하여 서로 다른 조회 에 대해 가중치 귀 일 화 를 했 지만 핵심 공식 은 TF * IDF 이다.
Lucene 알고리즘 공식 은 다음 과 같다.
score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )
각종 프로 그래 밍 플러그 는 매우 번 거 로 워 보이 기 때문에 사용 하지 않 아 도 되 기 때문에 우 리 는 Lucence 의 계산 공식 을 간소화 할 수 있다.
score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )
결론.
,
에 따라 stop word 를 반드시 제거 해 야 한다. 이 단어 들 이 나타 나 는 빈도 가 너무 높 기 때문에 TF 의 수치 가 매우 커서 점수 계산 결 과 를 심각하게 방해 할 수 있다 이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Elasticsearch 호출 Lucene 쿼리 인터페이스 원본 분석 6: 접두사 쿼리(Prefix)소개 조회 문법 원본 분석 접두사 조회는 설정에 있어서 단어 조회와 유사하다.접두사 검색은 이러한 문서와 일치할 수 있습니다. 이 문서의 특정 필드는 주어진 접두사로 시작됩니다. 예: 모든 제목 필드가cri로 시작하...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.