논문의 실현(Ftum 개념의 벡터를 사용한 특허 검색 시스템의 개선)
1. 배경
일반적으로 특허 문헌의 유사도 계산에서word2vec를 사용하거나 twfidf의 중요한 단어를 이용하여 추출한 결과이지만 상기 논문에서는 특허청이 유지하는 기술 분야의 주소(gmail의 라벨 이미지)를 이용하여 유사도를 계산하는 방법을 사용했다.
읽은 후에 특징점은
· Ftum 관점의 부여 2치(※ 부여/부여하지 않음)가 아니라 연속적인 것으로 포착하여 Ftum 관점의 부여되기 쉬운 수치화를 Ftum 개념의 벡터를 제작한다.
· 출현 빈도가 낮은 Ftum 관점은'부여되기 쉬운'상황과 출현 빈도가 높은 Ftum 관점은'부여되기 어려운'것으로 판단되는 경우 Ftum 관점의 가중치를 높이는 방향으로 조정하고, 반대로 출현 빈도가 높은 관점은'부여되기 쉬운'경우와빈도가 낮은 관점이 부여하기 어렵다고 판단되면 에프템 관점의 가중치를 줄이는 방향으로 조정한다.
일반적으로 생각하다.
이에 따라 tf-idf에서 유사도가 낮아 예측하기 어려운 유사 문헌도 구할 수 있다(상호보완관계가 있다).너무 좋아요!
2. 설치
여기전체가 있어요.
· F탐 개념 벡터 ⇔ 신청번호(ID) ⇔ 소성으로 사용되는 유닛 벡터의 관련 방법.
특정 주제 코드를 부여한 특허 문헌을 각 F 함수 관점에 따라 분리하여 각 관점에 따라 SVM 분류기를 제작하여 사용한다. SVM 분류기 학습에서는 F 함수 관점을 부여한 특허 문헌을 학습 데이터로 삼아 이 문헌에 나타난 형태소인 uni-gram을 본질에 사용한다.
라는 부분을 몇 번 읽어도 혼란스러웠다.↓
뭘 배워야 할지 모르겠지만.
• 어떤 Ftum(ex3H220AA 03)(1/0)에 대한 권한 수여 여부에 대한 정보 ytrain
각 특허의 개요, 권리요구, 설명서 등에서 추출한 유닛을 기본으로 하고 xtrain
연속값을 출력하는 Ftum의 권한 부여를 위한 모델 만들기
・에프템이 쉽게 부여되는 무게까지.
이해
• SVM 적용 방법
● scikit-learn을 위한 SVC, 데이터 프레임에서 x-까지train, ythain의 형식으로 진행하는 방법입니다.
또한 SVM의 하이퍼매개변수가 불분명하므로 적절히 설정하십시오.
이것이 정말 옳은 것인지 의문이 있는 것인지, 하지만 해 보면 유사도 계산으로 좋은 결과가 나왔다.
이 부근에 고민의 함수를 많이 썼다.모든 Ftum은 SVM 모델을 만들고 그 다음에 반드시 적용해야 하기 때문에 키=F tum,value=모델로 사용할 사전을 생각해 봤습니다.
def calc_doc(xvec,ft):
return 2*(1/(1+math.exp(-calc_yscore(models[ft],xvec)))-0.5)
def make_model(x_train,y_train):
# SVMのインスタンスを生成
model = SVC(kernel='rbf', random_state=None) #'linear'
# モデルの学習
model.fit(x_train, y_train)
return model
def calc_yscore(model,xvec):
return model.predict(xvec)
def get_w(inp,m,N):
if inp >= 0:
w = math.log2(N/m + 1)
else:
w = math.log2(N/(N-m)+1)
return w
def cos_sim(v1, v2):
return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
T-SNE를 사용하여 예제의 출력 결과를 시각화한 그림입니다.상당히 아름다운 부분으로 나뉘었다.
3. 소감
• 들어는 봤지만 논문에 적힌 정보일 뿐이라면 실제로 어떻게 했는지 모르는 부분이 있다.이럴 땐 본인에게 직접 물어보는 것이 좋다.어떡해.
저는 클라스와 그중의 메트로드 같은 느낌으로 더 멋있게 쓰고 싶어요!
Reference
이 문제에 관하여(논문의 실현(Ftum 개념의 벡터를 사용한 특허 검색 시스템의 개선)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/niship2/items/c6cb8a67beab51782c13텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)