아베 총리가 올해 가장 많이 발언한 단어를 살펴보았다

국회 발언 데이터를 사용하여 출현 단어를 계산해 봅니다.



다양한 기사의 단어를 계산하는 프로그램을 만들어 보았습니다.
그리고
국회의사록검색시스템의 API를 사용하여 회의록을 얻어보기
를 조합해 갑니다.

회의록 취득



먼저 회의록을 찍어 봅시다.
이번에는 2018년 아베 총리의 발언을 취득합니다. 파라미터는 다음과 같다.
  • 발언자:아베 신조
  • 취득일의 시작점:2018년 01월 01일
  • 취득일의 종점; 2018년 12월 31일
    이제 2018년에 아베 총리의 발언을 기록에 있는 한 취득할 수 있습니다.

  • 취득한 파일은 여기
    3MB 정도 있습니다. 우선은 이것을 사용해 갑니다.

    단어를 세어보세요



    내용적으로는 Wikipedia 기사의 단어를 계산해 보았습니다. 과 그다지 바뀌지 않습니다.
    다양한 기사의 단어를 계산하는 프로그램을 만들어 보았습니다. 프로그램을 그대로 사용해보십시오.
    프로그램의 사용법은 이쪽
    python count_word.py -i (inputするファイル) -o (結果出力ファイル)
    

    방금 얻은 파일을 그대로 넣고 움직여 보겠습니다.
    알기 쉽게 품사를 명사의 일반형과 고유명사로 짜서 카운트합니다.
    결과 그래프는 이쪽


    내각 총리대신과 아베 신조가 많네요. . .

    그것도 그럴 것이고, 의사록의 발언 데이터는 이런 느낌이 되고 있습니다.
    ○内閣総理大臣(安倍晋三君) 出入国管理及び難民認定法は、....
    

    발언의 시작 부분에 직책과 이름이 있습니다.

    로 첫 직직+이름을 제거합니다.

    발언자의 이름과 직책 제거



    나눠 쓴 후에 제거하려고 생각했는데, 발언으로 「내각 총리대신으로서~」같은 발언도 있을 가능성이 있기 때문에, mecab를 통과하기 전에 처리하고 싶습니다.
    전처리 단계에서 다음 처리를 추가했습니다.

    rm.py
    pattern = "(.*) (.*)"  #全角スペースで分ける
    if line.find('○',0,10) == 0: #○から名前なのでここで取り除く
        sep = re.search(pattern,line)
        line = line.replace(sep.group(1),"")
    

    역기이지만 일단 이것으로 좋을 것입니다.

    이것을 적용하고 다시 계산해보십시오.


    깨끗이 했어요. 그런 결과가 되었습니다.

    결과 감상



    역시 내각 총리 대신. 「국민」이나 「일본」 「우리 나라」등의 발언이 상위에 있네요.
    그 다음에 「북한」이라고 나온 것은 확실히라고 생각하게 하는 단어군요. 「책임」도 비교적 높은 빈도로 사용되고 있는 것도 알았습니다.
    종합적으로 헤어라고 생각한 결과가되었습니다 (자기 만족

    품사의 조건을 바꾸고 다시 실행해 봅니다.



    비교적 좋은 느낌의 결과가 나왔기 때문에 여러가지 조건을 바꾸어 실행해 봅니다.
    방금전에서는 명사・일반형or 고유명사로 짜 봤습니다만, 이번은 품사의 조건을 바꾸어 실행해 보겠습니다.

    ・모든 품사를 카운트

    글쎄, 그렇게 될거야.

    · 명사와 형용사 계산

    개악 된 느낌이 있군요 ...
    그리고, 기호가 들어 있다고 생각하면 이것 한숫자의 0이었습니다. mecab라면 한숫자는 정리로 인식해주지 않는 것 같습니다.

    ・한 숫자 이외의 명사 모두

    상위 단어가 바뀌었어요. 방금전보다 더 연상하기 쉬운 단어가 늘어난 것처럼 보입니다.
    좁히는 것은 큰 프레임이 더 나은 것 같습니다.

    어떤 품사로 짜면 좋은 방법입니까?



    위에서 가장 보기 쉬운 결과였던 것이
  • 명사+일반형or명사+고유명사
  • 숫자가 아닌 모든 명사

  • 이었다.
    개인적인 견해로는, 고유명사 등으로 짜는 것이 보다 알기 쉬운 단어가 나오고 있다고 생각했습니다.

    마지막으로



    형태소 해석&카운트만으로도 비교할 수 있을 것 같은 결과가 되었습니다.
    다음은 연별의 발언 등도 정리해 보려고 생각합니다.

    좋은 웹페이지 즐겨찾기