웹 문서를 자동으로 RDF로 변환하기
문서를 RDF를 변환해야하는 주제에 대해 연구를 해야해서
논문들을 찾아보다가
'웹 문서를 자동으로 RDF로 변환하는 방법'이라는 논문을 발견해 한 번 나온대로 구현해 보았다
Jsoup파싱과 형태소 분석기를 이용한 태깅
stanford pos tagger (형태소 분석기)
여기서 다운로드 받음
인텔리j에서 프로젝트 만들고 File-Project Structure-Modules-Dependencies에서
stanford-postagger-4.2.0.jar 추가
jsoup-1.13.1.jar도 같이 다운 받아서 추가
다운받은 staford폴더에 models에서 english-left3words-distsim.tagger.props파일을 복사해서
프로젝트 폴더에 taggers라는 폴더 만들고 붙여넣기함
package test_package;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.io.IOException;
public class main {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://en.wikipedia.org/wiki/Korea").get();
Elements pTags = doc.getElementsByTag("p");
String bodyText = Jsoup.parse(pTags.toString()).text();
MaxentTagger tagger = new MaxentTagger("taggers/english-left3words-distsim.tagger");
String tagged = tagger.tagString(bodyText);
위키피디아 Korea검색 결과를 파싱해서 p태그만 불러와 text로 바꾼뒤
태거를 통해 바꿔줌
Korea_NNP (_-LRB- officially_RB the_DT "_`` Korean_NNP Peninsula_NNP "_'' )_-RRB- is_VBZ a_DT region_NN in_IN East_NNP Asia_NNP ._. Since_IN 1945_CD it_PRP has_VBZ been_VBN divided_VBN into_IN the_DT two_CD parts_NNS which_WDT soon_RB became_VBD the_DT two_CD sovereign_JJ states_NNS :_: North_NNP Korea_NNP (_-LRB- officially_RB the_DT "_`` Democratic_NNP People_NNPS 's_POS Republic_NNP of_IN Korea_NNP "_'' )_-RRB- and_CC South_NNP Korea_NNP (_-LRB- officially_RB the_DT "_`` Republic_NNP of_IN Korea_NNP "_'' )_-RRB- ._. During_IN the_DT first_JJ half_NN of_IN the_DT 1st_NN millennium_NN ,_, Korea_NNP was_VBD divided_VBN between_IN the_DT three_CD competing_VBG states_NNS of_IN Goguryeo_NNP ,_, Baekje_NNP ,_, and_CC Silla_NNP ,_, together_RB known_VBN as_IN the_DT Three_CD Kingdoms_NNS of_IN Korea_NNP ._. In_IN the_DT second_JJ half_NN of_IN the_DT 1st_NN millennium_NN ,_, Silla_NNP defeated_VBD and_CC conquered_VBD Baekje_NNP and_CC Goguryeo_NNP ,_, leading_VBG to_IN the_DT "_`` Unified_NNP Silla_NNP "_'' period_NN ._. Meanwhile_RB ,_, Balhae_NNP formed_VBD in_IN the_DT north_NN ,_, superseding_VBG former_JJ Goguryeo_NNP ._. Unified_JJ Silla_NNP eventually_RB collapsed_VBD into_IN three_CD separate_JJ states_NNS due_IN to_IN civil_JJ war_NN ,_, ushering_VBG in_IN the_DT Later_RBR Three_CD Kingdoms_NNS ._. Toward_IN the_DT end_NN of_IN the_DT 1st_NN millennium_NN ,_, Goguryeo_NNP was_VBD resurrected_VBN as_IN Goryeo_NNP ,_, which_WDT defeated_VBD the_DT two_CD other_JJ states_NNS and_CC unified_VBD the_DT Korean_NNP Peninsula_NNP as_IN a_DT single_JJ sovereign_JJ state_NN ._. Around_IN the_DT same_JJ time_NN ,_, Balhae_NNP collapsed_VBD and_CC its_PRP$ last_JJ crown_NN prince_NN fled_VBD south_RB to_IN Goryeo_NNP ._. Goryeo_NNP (_-LRB- also_RB spelled_VBN as_IN Koryŏ_NNP )_-RRB- ,_, whose_WP$ name_NN developed_VBD into_IN the_DT modern_JJ exonym_NN "_'' Korea_NNP "_'' ,_, was_VBD a_DT highly_RB cultured_VBN state_NN that_WDT created_VBD the_DT world_NN 's_POS first_JJ metal_NN movable_JJ type_NN in_IN 1234_CD ._. During_IN this_DT period_NN ,_, the_DT Korean_JJ alphabet_NN was_VBD created_VBN by_IN Sejong_NNP the_DT Great_NNP in_IN the_DT 15th_JJ century_NN and_CC there_EX was_VBD increasing_VBG influence_NN of_IN Confucianism_NNP ._. During_IN the_DT later_JJ part_NN of_IN the_DT dynasty_NN ,_, Korea_NNP 's_POS isolationist_JJ policy_NN earned_VBD it_PRP the_DT Western_JJ nickname_NN of_IN the_DT "_`` Hermit_NNP Kingdom_NNP "_'' ._. By_IN the_DT late_JJ 19th_JJ century_NN ,_, the_DT country_NN became_VBD the_DT object_NN of_IN imperial_JJ design_NN by_IN the_DT Empire_NN of_IN Japan_NNP ._. After_IN the_DT First_NNP Sino_NNP -_HYPH Japanese_NNP War_NNP ,_, despite_IN the_DT Korean_NNP Empire_NNP 's_POS effort_NN to_TO modernize_VB ,_, the_DT country_NN was_VBD annexed_VBN by_IN Japan_NNP in_IN 22_CD August_NNP 1910_CD and_CC directly_RB ruled_VBN by_IN it_PRP until_IN the_DT end_NN of_IN World_NNP War_NNP II_NNP in_IN 2_CD September_NNP 1945_CD ._. In_IN 1945_CD ,_, the_DT Soviet_NNP Union_NNP and_CC the_DT United_NNP States_NNP agreed_VBD on_IN the_DT surrender_NN of_IN Japanese_JJ forces_NNS in_IN Korea_NNP in_IN the_DT aftermath_NN of_IN World_NNP War_NNP II_NNP ,_, leaving_VBG Korea_NNP partitioned_VBN along_IN the_DT 38th_JJ parallel_NN ._. The_DT North_NNP was_VBD under_IN Soviet_JJ occupation_NN and_CC the_DT South_NNP under_IN U.S._NNP occupation_NN ._. These_DT circumstances_NNS became_VBD the_DT basis_NN for_IN the_DT division_NN of_IN Korea_NNP by_IN the_DT two_CD superpowers_NNS with_IN two_CD different_JJ ideologies_NNS ,_, exacerbated_VBN by_IN their_PRP$ inability_NN to_TO agree_VB on_IN the_DT terms_NNS of_IN Korean_JJ independence_NN ._. The_DT Communist_JJ -_HYPH inspired_JJ government_NN in_IN the_DT North_NNP received_VBD backing_NN from_IN the_DT Soviet_NNP Union_NNP in_IN opposition_NN to_IN the_DT pro-Western_JJ government_NN in_IN the_DT South_NNP ,_, leading_VBG to_IN Korea_NNP 's_POS division_NN into_IN two_CD political_JJ entities_NNS in_IN 1948_CD :_: North_NNP Korea_NNP ,_, and_CC South_NNP Korea_NNP ._. Tensions_NNS between_IN the_DT two_CD resulted_VBD in_IN the_DT outbreak_NN of_IN the_DT Korean_NNP War_NNP in_IN 1950_CD ._. With_IN involvement_NN by_IN foreign_JJ troops_NNS ,_, the_DT war_NN ended_VBD in_IN a_DT stalemate_NN in_IN 1953_CD ,_, but_CC without_IN a_DT formalized_VBN peace_NN treaty_NN ._. This_DT status_NN contributes_VBZ to_IN the_DT high_JJ tensions_NNS that_WDT continue_VBP to_TO divide_VB the_DT peninsula_NN ._. Both_DT governments_NNS of_IN the_DT two_CD Koreas_NNPS continue_VBP to_TO claim_VB to_TO be_VB the_DT sole_JJ legitimate_JJ government_NN of_IN the_DT region_NN ._. 핵심고유단어 추출작업
tagged를 띄어쓰기로 split하여 배열을 만들고
NNP를 따로 분류한 nnp리스트를 만든뒤
Hashtable로 각 단어의 빈도수를 측정함
String[] taggedArr = tagged.split(" ");
List<String> nnp = Arrays.stream(taggedArr).filter(word -> word.contains("_NNP")).collect(Collectors.toList());
Hashtable<String,Integer> freqOfWordTable = new Hashtable<>();
for (String word : nnp) {
Integer freq = freqOfWordTable.get(word); // 단어를 꺼낸다. word가 key이고 freq가 value
freqOfWordTable.put(word, (freq == null) ? 1: freq +1);
Hashtable을 빈도수로 정렬하고 핵심 고유명사를 뽑아냄
List sortedList = sortByValue(freqOfWordTable);
String coreNoun = sortedList.get(0).toString();
System.out.println(coreNoun); // 결과 : Korea_NNP
// 맵정렬하는 메소드
public static List sortByValue(final Map map) {
List<String> list = new ArrayList();
Collections.sort(list,new Comparator() {
public int compare(Object o1,Object o2) {
Object v1 = map.get(o1);
Object v2 = map.get(o2);
return ((Comparable) v2).compareTo(v1);
//Collections.reverse(list); // 주석시 오름차순
return list;
트리플 추출 과정
"._."로 끊어서( .은 태그가 .임 ) sentences로 나눔
나눈 문장에 핵심 고유명사가 포함되있는지 여부를 판단함
있으면 단어별로 나눠서 핵심명사는 subject에
핵심명사 뒤에 나오는 동사는 predicate에
그 뒤에 나오는 고유명사는 object에 넣음(논문의 알고리즘 참고)
세개를 묶어 tripple을 구성하고 tripples라는 리스트에 넣음
String[] sentences = tagged.split("\\._\\.");
List<String[]> tripples = new ArrayList<>();
for (String sentence : sentences){
if (sentence.contains(coreNoun)) { //핵심 고유명사 여부
String[] words = sentence.split(" ");
String subject = "";
String predicate = "";
String object = "";
for (String word:words) {
if(word.equals(coreNoun)) {
String[] removeTag = word.split("_");
subject = removeTag[0];
}else if(word.contains("_VB") && !subject.isEmpty()) {
String[] removeTag = word.split("_");
predicate = removeTag[0];
}else if(word.contains("_NNP") && !predicate.isEmpty()) {
String[] removeTag = word.split("_");
object = removeTag[0];
if(!subject.isEmpty() && !predicate.isEmpty() && !object.isEmpty()){
String[] tripple = {subject,predicate,object};
Jena를 이용한 RDF 추출과정
Jena다운 받고 https://jena.apache.org/
File-Project Structure-Libraries에 lib 랑 lib-src 전부 추가
빈 모델 만들고 Resource, Property, RDFNode에 각각 subject, predicate, object 매핑해줌
자세한건 논문과 Jena reference 참고
Model model = ModelFactory.createDefaultModel();
for(String[] statement : tripples){
Resource s = model.createResource("http://subject/"+statement[0]);
Property p = model.createProperty("http://predicate/"+statement[1]);
RDFNode o = model.createLiteral(statement[2]);
}else {
RDF 출력
N-TRIPLES 형태로 출력
RDFDataMgr.write(System.out, model, Lang.NTRIPLES);
더 연구해야될 부분
여기서는 핵심 고유명사를 단순히 빈도수가 가장 높게 나온 고유명사로 정함
kyung hee university를 검색한 결과는 university가 핵심 고유명사로 나옴
→ 이는 띄어쓰기 별로 나누어 형태소 분석을 했기때문
→ 핵심 고유명사를 선정하는 알고리즘 연구 필요
트리플 구성을 보면 이상한게 많이보임
→ 단순히 고유명사를 주어로 했을때 그 뒤에 나오는 동사를 동사로 하고 그 뒤에 나오는 고유명사를 object로 선정하였기 때문
→ 주어 동사 목적어를 매핑하는 더 정확한 알고리즘 연구 필요
