TF-IDF를 사용하여 뉴스 기사의 중요한 단어를 추출하면, 그것만으로 뉴스의 내용을 알 수 있을까요? 생각하면 전혀 좋지 않았다.

소개



안녕하세요.
최근 인터넷 뉴스를 보는 것이 귀찮게 되어 온 TakuyaHanada입니다.

갑작스럽지만, 단어 몇 개 보는 것만으로 뉴스의 내용을 알 수 있다고 편리하다고 생각하지 않습니까?
나는 편리하다고 생각한다.

그래서 최근에 배운 TF-IDF를 사용하여 뉴스의 중요어를 추출해, 순위가 높은 중요어를 늘어놓고 뉴스의 개요를 알 수 있는지 시험해 보았습니다!

다음은 그 결과를 정리한 것입니다.

사용한 뉴스 기사



이번에 사용한 뉴스 기사는 Yahoo! 뉴스의 4개의 기사입니다.
  • 트럼프 씨에게의 후우만 보도=「거의 관광객」 「스모의 전통 흔들림」-미 미디어(시사 통신) - Yahoo!뉴스
  • 트럼프 씨 악수의 작가들 「초대」? 사쿠라이 요시코 씨 등 「협회 없음」(매일 신문) - Yahoo!뉴스
  • 구리야마 감독 「100구 던져」휘성 데뷔에 조건 제시(일간 스포츠) - Yahoo!뉴스
  • 도완고와 그리, VTuber 사업에서 협업 "가상 캐스트"의 프로그램을 "REALITY"로 전달 가능하게 (ITmedia NEWS) - Yahoo!

  • 이러한 뉴스 기사에서,
  • 뉴스 타이틀
  • 이미지 아래 문장
  • 본문

  • 의 3개를 뉴스 데이터로서 꺼냈습니다.



    데이터 전처리



    얻은 뉴스 데이터를 MeCab을 사용하여 일반 명사만의 문장으로 만들었습니다.

    전처리 예
    < 処理前 >
    トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア
    
    < 処理後 >
    トランプ ぶり 客 相撲 伝統 米 メディア
    

    TI-IDF 계산



    계산에는 scikit-learn을 사용했습니다.
    결과는 각 문장마다, 각 단어의 TF-IDF 값을 더해, 뉴스 전체의 결과로 했습니다.

    결과



    TF-IDF 값을 내림차순으로 정렬하여 상위 5 건을 보았습니다. TF-IDF 값은 소수 4위를 반올림합니다.
  • 트럼프 씨에게의 후우만 보도=「거의 관광객」 「스모의 전통 흔들림」-미 미디어(시사 통신) - Yahoo!뉴스



  • 순위
    일반 명사
    TF-IDF 값


    1
    대통령
    8.562

    2
    트럼프
    6.773

    3
    사진
    6.612

    4
    퍼니스
    5.749

    5
    구운
    5.749


  • 트럼프씨 악수의 작가들 「초대」? 사쿠라이 요시코 씨 등 "협회 없음"(매일 신문) - Yahoo! 뉴스



  • 순위
    일반 명사
    TF-IDF 값


    1
    트럼프
    21.350

    2
    좌석
    20.296

    3

    16.337

    4
    총리
    15.243

    5

    13.614


  • 구리야마 감독 「100구 던져」휘성 데뷔에 조건 제시(일간 스포츠) - Yahoo!뉴스



  • 순위
    일반 명사
    TF-IDF 값


    1

    28.906

    2
    싸움
    16.015

    3

    11.031

    4

    8.943

    5

    8.943


  • 도완고와 그리, VTuber 사업에서 협업 "가상 캐스트"프로그램을 "REALITY"로 전달 가능하게 (ITmedia NEWS) - Yahoo! 뉴스



  • 순위
    일반 명사
    TF-IDF 값


    1
    가상
    15.860

    2
    캐스트
    12.976

    3
    사업
    9.011

    4
    사용자
    8.118

    5
    사람
    7.621


    요약



    전혀 좋지 않았습니다. 구리하라 감독에 관해서는 「돔」이 들어 있지 않으면 야구의 뉴스라고 상상할 수 없습니다.

    결과를 보는 한, 일반 명사의 문자수가 1의 것에 관해서는, 없어도 되는 것은 아닌가? 라는 것이 많기 때문에, 일반 명사의 문자수를 2이상으로 한정하면, 좀 더 맛이 될지도 모릅니다.

    다음 번이라면 좀 더 고안하고 시도해 보겠습니다.

    참고


  • Tfidfvectorizer의 간단한 사용법(tf idf) - mura632’s blog
  • scikit-learn에서 tf-idf | mwSoft
  • 좋은 웹페이지 즐겨찾기