NLP P stage Day 2, 9/28 Tue
input: sentence, subject entity, object entity
output: relation 30개 중 하나를 예측한 predict label, 30개 클래스 각각의 확률을 제출해야하고 클래스 순서는 dictionary에 적힌 순서대로 출력한다.
Data
전처리가 되어 있지 않음
Custom Baseline code 작성 시 데이터 전처리 코드를 작성해야함
label_list = [ 'no_relation',
'org:top_members/employees',
'org:members',
'org:product',
'per:title',
'org:alternate_names',
'per:employee_of',
'org:place_of_headquarters',
'per:product',
'org:number_of_employees/members',
'per:children',
'per:place_of_residence',
'per:alternate_names',
'per:other_family',
'per:colleagues',
'per:origin',
'per:siblings',
'per:spouse',
'org:founded',
'org:political/religious_affiliation',
'org:member_of',
'per:parents',
'org:dissolved',
'per:schools_attended',
'per:date_of_death',
'per:date_of_birth',
'per:place_of_birth',
'per:place_of_death',
'org:founded_by',
'per:religion']
Baseline code
train과 eval set을 분리하고 있지 않음
→ overfitting을 막기 위해서 train set과 eval set을 분리하는 code 작성해야함
평가 방식
1) no relation class를 제외한 micro F1 score
2) 모든 class에 대한 Area Under the Precision-Recall Curve(AUPRC)
micro F1 score가 더 우선시 됨
Author And Source
이 문제에 관하여(NLP P stage Day 2, 9/28 Tue), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@hylee5642/NLP-P-stage-Day-2-928-Tue저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)