엔트로피 Stop Words 추출 및 웹 콘텐츠 품질 지표

Stop Words는 문서 특성을 표현하기 어려운 단어를 나타내는 여러 문서에 포함됩니다.예를 들어 영어의 the, in, 애프터 등 단어는 전형적인 Stop Words이다.
이런 단어는 검색할 때 잡음을 일으키기 때문에 사전에 검색 대상에서 제외해야 한다.이 글은 검색 시 제외해야 할 Stop Words를 판단하기 위해 정보량 선택(셀프 엔트로피)를 사용하는 지표다.
또한 여기서 처리하는 공식은 TF-IDF이 말한 DF(Doctoment Frrequency)와 본질적으로 같다.정보량/엔트로피는 단어가'파일 컬렉션 전체'의 특징에 비해 상대적으로 크고, TF-IDF는 단어가'어떤 파일'의 특징(문서 요약 및 대표어 추출)을 기준으로 하는 것과 다르다는 점을 나타낸다.
정보량과 엔트로피의 계산 방법
정보량 선택
총 문서 수 $N$N의 문서 컬렉션에서 단어 $W를 포함하는 문서 수 $n만약 w$이면 파일에 $W$의 확률을 포함합니다 $P달러(W)} 달러는 다음과 같습니다.
$P_{(W)} =\frac{n_w}{N}$
이 때 단어 $W에 대한 선택 정보량 $I달러(W)} 달러는 다음과 같습니다.
$I_{(W)} =\log\frac{1}{P_{(W)}} =\log N -\log n_w$
문서에 포함되지 않은 단어 ($n w=0$, 간략한 $P (0) = 0$) 의 정보량은 $I = infty 달러 사이에 포함되지 않으며, 정보량을 발산합니다.I_{(W)} 달러의 대수 밑바닥을 어떻게 뽑아도 본질적인 차이가 없기 때문에 밑바닥은 총 문서 수 $N$:
$I_{(W)} =\log_N N -\log_N n_w = 1 -\log_N n_w = 1 -\frac{\log n_w}{\log N}$
조건 $1\lenw\leN$0\leI(W)}\e1$*의 범위는 실제 지표로 사용하기 쉽습니다. 본고는 이 공식을 사용합니다.
위에서 설명한 바와 같이 모든 문서에 포함된 특징이 없는 단어는 $n입니다w=N$I{(W)]]=0$I$0에 가까운 달러 단어 $W는 특징이 없는 Stop Words로 판단됩니다.
마찬가지로 한 문서에만 포함된 단어는 $n 입니다.w=1달러 때문에 $I{(W)] = 1$근처의 단어는 전체 텍스트 집합에서 특징이 있는 단어로 판단할 수 있습니다.그러나 극소수의 문서에 나오는 단어가 사실상 사어나 조어일 가능성이 높기 때문에 배제 대상으로 고려할 필요가 있다.
평균 정보량
전체 텍스트 집합의 평균 정보량(엔트로피)은 다음과 같다.
$H_{(P)} = -\sum P\log P = -\sum\frac{n_w}{N} (\log n_w -\log N)$
고정값 대비 $P$H$((P)} 달러는 다음과 같은 행위를 취한다. (단조로운 증가/단조로운 감소가 아니기 때문에 자신의 정보량처럼 대수의 밑수를 $N$로 설정하지 마라.)

엔트로피가 낮은 텍스트 집합은 단어의 분포에 있어 편차와 균일성 등 규칙성이 높다고 할 수 있다.다시 한번 잘 씹어보면 각 문건의 특색과 주제가 뚜렷하고 분류도 역할을 잘 하거나 내용이 비슷한 문건으로만 해석할 수 있다.이것은 파일 집합 전체의 품질 지표로 사용할 수 있죠.

좋은 웹페이지 즐겨찾기