TF-IDF를 사용하여 뉴스 기사의 중요한 단어를 추출하면, 그것만으로 뉴스의 내용을 알 수 있을까요? 생각하면 전혀 좋지 않았다.
3509 단어 파이썬scikit-learnmecabtf-idf
소개
안녕하세요.
최근 인터넷 뉴스를 보는 것이 귀찮게 되어 온 TakuyaHanada입니다.
갑작스럽지만, 단어 몇 개 보는 것만으로 뉴스의 내용을 알 수 있다고 편리하다고 생각하지 않습니까?
나는 편리하다고 생각한다.
그래서 최근에 배운 TF-IDF를 사용하여 뉴스의 중요어를 추출해, 순위가 높은 중요어를 늘어놓고 뉴스의 개요를 알 수 있는지 시험해 보았습니다!
다음은 그 결과를 정리한 것입니다.
사용한 뉴스 기사
이번에 사용한 뉴스 기사는 Yahoo! 뉴스의 4개의 기사입니다.
이번에 사용한 뉴스 기사는 Yahoo! 뉴스의 4개의 기사입니다.
이러한 뉴스 기사에서,
의 3개를 뉴스 데이터로서 꺼냈습니다.
데이터 전처리
얻은 뉴스 데이터를 MeCab을 사용하여 일반 명사만의 문장으로 만들었습니다.
전처리 예< 処理前 >
トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア
< 処理後 >
トランプ ぶり 客 相撲 伝統 米 メディア
TI-IDF 계산
계산에는 scikit-learn을 사용했습니다.
결과는 각 문장마다, 각 단어의 TF-IDF 값을 더해, 뉴스 전체의 결과로 했습니다.
결과
TF-IDF 값을 내림차순으로 정렬하여 상위 5 건을 보았습니다. TF-IDF 값은 소수 4위를 반올림합니다.
< 処理前 >
トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア
< 処理後 >
トランプ ぶり 客 相撲 伝統 米 メディア
계산에는 scikit-learn을 사용했습니다.
결과는 각 문장마다, 각 단어의 TF-IDF 값을 더해, 뉴스 전체의 결과로 했습니다.
결과
TF-IDF 값을 내림차순으로 정렬하여 상위 5 건을 보았습니다. TF-IDF 값은 소수 4위를 반올림합니다.
순위
일반 명사
TF-IDF 값
1
대통령
8.562
2
트럼프
6.773
3
사진
6.612
4
퍼니스
5.749
5
구운
5.749
순위
일반 명사
TF-IDF 값
1
트럼프
21.350
2
좌석
20.296
3
달
16.337
4
총리
15.243
5
일
13.614
순위
일반 명사
TF-IDF 값
1
군
28.906
2
싸움
16.015
3
별
11.031
4
일
8.943
5
돔
8.943
순위
일반 명사
TF-IDF 값
1
가상
15.860
2
캐스트
12.976
3
사업
9.011
4
사용자
8.118
5
사람
7.621
요약
전혀 좋지 않았습니다. 구리하라 감독에 관해서는 「돔」이 들어 있지 않으면 야구의 뉴스라고 상상할 수 없습니다.
결과를 보는 한, 일반 명사의 문자수가 1의 것에 관해서는, 없어도 되는 것은 아닌가? 라는 것이 많기 때문에, 일반 명사의 문자수를 2이상으로 한정하면, 좀 더 맛이 될지도 모릅니다.
다음 번이라면 좀 더 고안하고 시도해 보겠습니다.
참고
Reference
이 문제에 관하여(TF-IDF를 사용하여 뉴스 기사의 중요한 단어를 추출하면, 그것만으로 뉴스의 내용을 알 수 있을까요? 생각하면 전혀 좋지 않았다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ohakutsu/items/480e5f6416da05bb51ce텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)