matplotlib로 간단한 히스토그램 및 막대 그래프 그리기

리뷰의 데이터 세트를 이해하기 위해 각 단어의 출현 횟수를 조사하기 위해 막대 그래프, 각 리뷰의 길이가 어느 정도가 많은지 조사하기 위해 히스토그램을 구할 필요가 있었다.

matplotlib



matplotlib에 대한 개요를 얻으려면 이 기사이 사용되었습니다. 이번에는 데이터의 특징을 알고 싶을 뿐이므로 pyplot 모듈만 취급하면 문제 없었다.

막대 그래프 그리기



참고한 기사
matplotlib.bar 문서
matplot.bar 문서 아래의 사용 예
아래 코드의 주요 부분. score는 단어의 출현 횟수가 오름차순으로 들어간 목록입니다.
word는 score에 대응하도록 각 낱말이 들어간 명부이다.
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

pos = np.arange(len(score))
plt.barh(pos, score, tick_label = word)
plt.show()

matplot.bar의 사용 예 의 plt.barh() 를 사용하고 있는 부분과 matplotlib.bar 문서 하고 싶은 데이터, 표시하고 싶은 데이터에 대응하는 라벨을 제3 인수로 하면 능숙했다. 세로 히스토그램으로 하고 싶다면 plt.barh를 plt.bar로 하면 좋다고 생각된다.

실제 그래프


히스토 그래프 그리기



참고한 기사
matplotlib.pyplot.hist 문서
a~b의 값으로 하나의 빈을 구성, 하고 싶었지만, 조사해도 잘 모르고, 빈수를 늘리는 것으로 어떻게든 그것 같은 히스토그램을 작성했다.
아래 코드의 주요 부분. 변수 x는 각 리뷰의 단어 수를 포함합니다. 정렬할 필요는 없습니다.
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

plt.xticks(np.arange(0, 1001, 100))
plt.xlim(right = 1001)
plt.hist(x, bins = 200, rwidth = 10)
plt.show()

xticks : 히스토그램 시간과 마찬가지로 각 데이터의 레이블에 해당합니다.
xlim : 가로축의 한계값.
bins : 빈 수.
rwidth : 빈의 시각적 폭

실제 그래프

리뷰의 단어수는 100~200당 많다는 것을 알 수 있다.

좋은 웹페이지 즐겨찾기