파이썬 텍스트 마이닝 ②Word Cloud 시각화

파이톤에서 텍스트 발굴에 도전합니다.(Python 3 시스템 개체)
다음 절차에 따라 처리합니다.
①형태소 분석저번
②Word Cloud를 통한 시각화(이번)
③ 일본어 문서의 형태를 분석하고 Word Cloud를 통해 시각화(다음)

Word Cloud


사전에 따르면 "글에서 빈도가 높은 단어를 여러 개 골라 그 빈도에 따라 크기로 표시하는 수법"이라며 "(중략은) 글의 크기뿐만 아니라 색깔, 글씨체, 방향을 변화시켜 글의 내용에 한눈에 인상을 줄 수 있다"고 설명했다.
아무튼 ↓ 같은 녀석.

사용자 로컬씨 무료공개네트워크 서비스인데 파이톤으로 이거 해보세요.

Word Cloud의 라이브러리


파이톤으로 사용할 수 있는 물건Andreas Mueller씨가 공개word_cloud한 것 같아서 사용해 봤어요.

word_cloud 설치


pip로 설치할 수 있습니다.
sudo pip3 install wordcloud
설치가 잘 되어서 사용해 봤어요.
반각 공백으로 구분된 문자열을 전달할 필요가 있을 것 같으니 영어로 먼저 하자.트럼프 대통령 취임사 도입부를 소재로 한다.
wordcloud_sample.py
# coding: utf-8
from wordcloud import WordCloud

text = "Chief Justice Roberts, President Carter, President Clinton, President \
        Bush, President Obama, fellow Americans, and people of the world: \
        thank you. We, the citizens of America, are now joined in a great \
        national effort to rebuild our country and to restore its promise for \
        all of our people. \
        Together, we will determine the course of America and the world for \
        years to come. \
        We will face challenges. We will confront hardships. But we will get \
        the job done. \
        Every four years, we gather on these steps to carry out the orderly \
        and peaceful transfer of power, and we are grateful to President Obama \
        and First Lady Michelle Obama for their gracious aid throughout this \
        transition. They have been magnificent."

wordcloud = WordCloud(background_color="white",
    font_path="/usr/share/fonts/truetype/takao-gothic/TakaoPGothic.ttf",
    width=800,height=600).generate(text)

wordcloud.to_file("./wordcloud_sample.png")
쉽게 말하면, 만들 이미지와 관련된 설정을 매개 변수로 WordCloud 대상을 만들고, 그릴 문자열을generate () 방법에 전달하여 초기화합니다.to_파일 () 방법으로 그림 파일의 느낌을 출력합니다.
구조기 파라미터는 공식 참조.
먼저 위의 샘플을 이동하여 완성한 이미지입니다.
python3 wordcloud_sample.py

사이트 축소판 그림

  • 파이톤에서WordCloud를 이용한 트위터 계정 시각화
  • Word Cloud를 사용하여 기사의 단어가 표시되는 빈도를 시각화합니다.[Python]
  • 좋은 웹페이지 즐겨찾기