Shingling 알고리즘. - 쉽게 말 하면...
1135 단어 인공지능
shinling 알고리즘 은 두 문서 의 싱크로 율 을 계산 하 는 데 사 용 됩 니 다. 예 를 들 어 웹 페이지 의 무 게 를 줄 이 는 데 사 용 됩 니 다.위 키 피 디 아 는 w - shingling 에 대한 정 의 는 다음 과 같다.
In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequences of tokens in a document —that can be used to gauge the similarity of two documents. The
w denotes the number of tokens in each shingle in the set.
위 키 피 디 아 는 쉬 운 예 로 shinling 알고리즘 의 원 리 를 설명 했다.문서
"a rose is a rose is a rose"
분사 후의 어휘 (token, 어휘 단원) 집합 은?
(a,rose,is,a,rose,is, a, rose)
그러면 w = 4 의 4 - shingling 은 집합 입 니 다.
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) }
중 복 된 하위 집합 제거:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }
shingle 의 크기 를 지정 합 니 다. 두 문서 A 와 B 의 싱크로 율 r 는:
r(A,B)=|S(A)∩S(B)| / |S(A)∪S(B)|
그 중 | A | 집합 A 의 크기 를 표시 합 니 다.
따라서 싱크로 율 은 0 과 1 사이 에 있 는 수치 이 고 r (A, A) = 1, 즉 하나의 문서 가 그 자체 와 100% 비슷 하 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
SPRESENSE x Neural Network Console을 만져 보자 제1회 ~SPRESENS의 소개와 전체의 구성~이 기사는 20일째 기사입니다. 전회는 Katsuaki Takagi씨의 「 」이었습니다. Sony가 발매한 보드 「SPRESENSE」와 「Neural Network Console」을 맞추어 사용해 봅니다. 연재 기사...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.