Shingling 알고리즘. - 쉽게 말 하면...

1135 단어 인공지능
Shingling 알고리즘 이 뭐 예요?
shinling 알고리즘 은 두 문서 의 싱크로 율 을 계산 하 는 데 사 용 됩 니 다. 예 를 들 어 웹 페이지 의 무 게 를 줄 이 는 데 사 용 됩 니 다.위 키 피 디 아 는 w - shingling 에 대한 정 의 는 다음 과 같다.
In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The 
w denotes the number of tokens in each shingle in the set.
위 키 피 디 아 는 쉬 운 예 로 shinling 알고리즘 의 원 리 를 설명 했다.문서
   "a rose is a rose is a rose"

분사 후의 어휘 (token, 어휘 단원) 집합 은?
   (a,rose,is,a,rose,is, a, rose)

그러면 w = 4 의 4 - shingling 은 집합 입 니 다.
   { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) }

중 복 된 하위 집합 제거:
   { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }

shingle 의 크기 를 지정 합 니 다. 두 문서 A 와 B 의 싱크로 율 r 는:
   r(A,B)=|S(A)∩S(B)| / |S(A)∪S(B)|


그 중 | A | 집합 A 의 크기 를 표시 합 니 다.
따라서 싱크로 율 은 0 과 1 사이 에 있 는 수치 이 고 r (A, A) = 1, 즉 하나의 문서 가 그 자체 와 100% 비슷 하 다.

좋은 웹페이지 즐겨찾기