논문의 실현(Ftum 개념의 벡터를 사용한 특허 검색 시스템의 개선)

2547 단어 전매특허svm
Ftum 개념 벡터를 사용한 특허 검색 시스템의 개량의 논문을 소개했기 때문에 실시한 예입니다.
1. 배경
일반적으로 특허 문헌의 유사도 계산에서word2vec를 사용하거나 twfidf의 중요한 단어를 이용하여 추출한 결과이지만 상기 논문에서는 특허청이 유지하는 기술 분야의 주소(gmail의 라벨 이미지)를 이용하여 유사도를 계산하는 방법을 사용했다.
읽은 후에 특징점은
· Ftum 관점의 부여 2치(※ 부여/부여하지 않음)가 아니라 연속적인 것으로 포착하여 Ftum 관점의 부여되기 쉬운 수치화를 Ftum 개념의 벡터를 제작한다.
· 출현 빈도가 낮은 Ftum 관점은'부여되기 쉬운'상황과 출현 빈도가 높은 Ftum 관점은'부여되기 어려운'것으로 판단되는 경우 Ftum 관점의 가중치를 높이는 방향으로 조정하고, 반대로 출현 빈도가 높은 관점은'부여되기 쉬운'경우와빈도가 낮은 관점이 부여하기 어렵다고 판단되면 에프템 관점의 가중치를 줄이는 방향으로 조정한다.
일반적으로 생각하다.
이에 따라 tf-idf에서 유사도가 낮아 예측하기 어려운 유사 문헌도 구할 수 있다(상호보완관계가 있다).너무 좋아요!
2. 설치
여기전체가 있어요.
· F탐 개념 벡터 ⇔ 신청번호(ID) ⇔ 소성으로 사용되는 유닛 벡터의 관련 방법.
특정 주제 코드를 부여한 특허 문헌을 각 F 함수 관점에 따라 분리하여 각 관점에 따라 SVM 분류기를 제작하여 사용한다. SVM 분류기 학습에서는 F 함수 관점을 부여한 특허 문헌을 학습 데이터로 삼아 이 문헌에 나타난 형태소인 uni-gram을 본질에 사용한다.
라는 부분을 몇 번 읽어도 혼란스러웠다.↓
뭘 배워야 할지 모르겠지만.
• 어떤 Ftum(ex3H220AA 03)(1/0)에 대한 권한 수여 여부에 대한 정보 ytrain
각 특허의 개요, 권리요구, 설명서 등에서 추출한 유닛을 기본으로 하고 xtrain
연속값을 출력하는 Ftum의 권한 부여를 위한 모델 만들기
・에프템이 쉽게 부여되는 무게까지.
이해
• SVM 적용 방법
● scikit-learn을 위한 SVC, 데이터 프레임에서 x-까지train, ythain의 형식으로 진행하는 방법입니다.
또한 SVM의 하이퍼매개변수가 불분명하므로 적절히 설정하십시오.
이것이 정말 옳은 것인지 의문이 있는 것인지, 하지만 해 보면 유사도 계산으로 좋은 결과가 나왔다.
이 부근에 고민의 함수를 많이 썼다.모든 Ftum은 SVM 모델을 만들고 그 다음에 반드시 적용해야 하기 때문에 키=F tum,value=모델로 사용할 사전을 생각해 봤습니다.
def calc_doc(xvec,ft):
    return 2*(1/(1+math.exp(-calc_yscore(models[ft],xvec)))-0.5)

def make_model(x_train,y_train):
    # SVMのインスタンスを生成
    model = SVC(kernel='rbf', random_state=None) #'linear'
    # モデルの学習
    model.fit(x_train, y_train)
    return model

def calc_yscore(model,xvec):
    return model.predict(xvec)

def get_w(inp,m,N):
    if inp >= 0:
        w = math.log2(N/m + 1)
    else:
        w = math.log2(N/(N-m)+1)
    return w

def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
T-SNE를 사용하여 예제의 출력 결과를 시각화한 그림입니다.
상당히 아름다운 부분으로 나뉘었다.

3. 소감
• 들어는 봤지만 논문에 적힌 정보일 뿐이라면 실제로 어떻게 했는지 모르는 부분이 있다.이럴 땐 본인에게 직접 물어보는 것이 좋다.어떡해.
저는 클라스와 그중의 메트로드 같은 느낌으로 더 멋있게 쓰고 싶어요!

좋은 웹페이지 즐겨찾기