히스토그램 및 산점도를 Jupyter Notebook에 표시
4494 단어 pandas파이썬Jupytermatplotlib
이 기사의 내용은 다음 기사에 따라 준비한 Jupyter Notebook 환경에서 시도합니다.
Jupyter Notebook을 Docker를 사용하여 쉽게 설치하고 시작 (nbextensions, Scala도 지원) - Qiita
이 환경에서 브라우저에서 포트 8888에 액세스하여 Jupyter Notebook을 사용할 수 있습니다. 오른쪽 상단의 버튼 New > Python3을 따라 새로운 노트를 엽니 다.
또한이 기사에서는 적절한 무작위로 만든 CSV 파일
htps : // 기주 b. 코 m/스즈키-나ゔぃ/사 mpぇ-다타/bぉb/마s r/사 mpぇ-다타-1. CSV
를 사용하고 있습니다.
데이터 준비
다양한 import와 데이터를 읽습니다.
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("sample-data-1.csv", names=["id", "target", "data1", "data2", "data3"])
df
는 DataFrame 객체입니다.CSV에서 읽고 DataFrame을 다루는 것은 이전 기사를 참조하십시오.
DataFrame에 대한 기본 작업 시도 - Qiita
히스토그램
Matplotlib documentation
htps // tp t b. 오 rg / 아피 / _ 아 s_ 겐 / 마 tp t t b. pyp t. 히 st. HTML # 마 tp t t b. pyp t. 히 st
plt.hist(df["data1"])
bins
라는 옵션으로 가로축의 분할할 수를 지정할 수 있습니다.plt.hist(df["data1"], bins=30)
range
로 가로축 범위를 지정할 수 있습니다.plt.hist(df["data1"], range=(-100, 100))
density=True
를 지정하면 세로축의 합계가 1.0이되도록 정규화됩니다.산점도
Matplotlib documentation
htps // tp t b. 오 rg / 아피 / _ 아 s_ 겐 / 마 tp t t b. pyp t. s로 r. HTML # 마 tp t t b. pyp t. s와 r
plt.scatter(df["data1"], df["data2"])
c
에 정수의 열을 지정하면(자), 그 값 마다 색으로 나누어 주는 것 같습니다.plt.scatter(df["data1"], df["data2"], c = df["target"])
점이 많이 있는 경우는
alpha
를 지정하면 좋을 것 같습니다. 0.0
로 투명, 1.0
가 불투명하고 그 중간을 지정하면 농담을 알 수 있습니다.plt.scatter(df["data1"], df["data2"], c = df["target"], alpha=0.5)
xlim
, ylim
라는 메소드로 가로축의 범위를 지정할 수 있는 것 같습니다.plt.xlim(-50, 50)
plt.ylim(-5, 5)
이상.
Reference
이 문제에 관하여(히스토그램 및 산점도를 Jupyter Notebook에 표시), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/suzuki-navi/items/9f5fd47734b22b4adf71텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)