NLP P stage Day 2, 9/28 Tue

input: sentence, subject entity, object entity

output: relation 30개 중 하나를 예측한 predict label, 30개 클래스 각각의 확률을 제출해야하고 클래스 순서는 dictionary에 적힌 순서대로 출력한다.

Data

전처리가 되어 있지 않음

Custom Baseline code 작성 시 데이터 전처리 코드를 작성해야함

label_list = [						'no_relation',
							'org:top_members/employees',
							'org:members',
							'org:product',
							'per:title', 
							'org:alternate_names',
							'per:employee_of', 
							'org:place_of_headquarters', 
							'per:product',
							'org:number_of_employees/members', 
							'per:children',
							'per:place_of_residence', 
							'per:alternate_names',
							'per:other_family', 
							'per:colleagues', 
							'per:origin', 
							'per:siblings',
							'per:spouse', 
							'org:founded', 
							'org:political/religious_affiliation',
							'org:member_of',
							'per:parents', 
							'org:dissolved',
							'per:schools_attended',
							'per:date_of_death',
							'per:date_of_birth',
							'per:place_of_birth',
							'per:place_of_death',
							'org:founded_by',
							'per:religion']

Baseline code

train과 eval set을 분리하고 있지 않음

→ overfitting을 막기 위해서 train set과 eval set을 분리하는 code 작성해야함

평가 방식

1) no relation class를 제외한 micro F1 score

2) 모든 class에 대한 Area Under the Precision-Recall Curve(AUPRC)

micro F1 score가 더 우선시 됨

좋은 웹페이지 즐겨찾기