데이터 분석을 위한 부품 모음
12616 단어 Python3matplotlib
데이터 분석을 위한 부품 모음
version.cmd
python --version
:: Python 3.7.6
jupyter --version
:: jupyter core : 4.6.1
:: jupyter-notebook : 6.0.3
:: qtconsole : 4.6.0
:: ipython : 7.12.0
:: ipykernel : 5.1.4
:: jupyter client : 5.3.4
:: jupyter lab : 1.2.6
:: nbconvert : 5.6.1
:: ipywidgets : 7.5.1
:: nbformat : 5.0.4
:: traitlets : 4.3.3
패키지
import.py
import pandas as pd #データ解析を支援する機能を提供するライブラリ
import numpy as np #数値計算の拡張モジュール
import matplotlib #データビジュアライズに関するパッケージ
import matplotlib.pyplot as plt # 自動的にプロットするためのインターフェース、らしい
from datetime import datetime as dt #日付や時刻を操作するためのモジュール
from sklearn.preprocessing import StandardScaler #データ標準化用モジュール
matplotlib에서 일본어 처리
참조 소스 : matplotlib의 일본어
matplot_japanese.py
from matplotlib import rcParams
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro', 'Yu Gothic', 'Meirio', 'Takao', 'IPAexGothic', 'IPAPGothic', 'VL PGothic', 'Noto Sans CJK JP']
표시할 그래프와 이미지의 크기
figsize.py
plt.figure(figsize=(20,2))
데이터 입출력
SQL에서 로드
#SQL
import pymysql
import sqlalchemy
from sqlalchemy import create_engine
#接続情報
url = 'mysql+pymysql://root:XXXX@127.0.0.1:3306/databasename?charset=utf8'
engine = sqlalchemy.create_engine(url, echo=False)
#実行
query = "SELECT * FROM Table"
dataset = pd.read_sql(query,con = engine)
CSV 입출력
csv.py
dataset = pd.read_csv("pass of csv", encoding = "utf-8")
dataset.to_csv("pass of csv", encoding="shift-jis")
클립보드로 출력
clipboard.py
!pip install pyperclip
import pyperclip
pyperclip.copy(STR_XXX)
전처리
내용 확인
info.py
dataset.info()
dataset.describe() #max,min,mean,std,四分位数等
성형
index.py
#データフレームにインデックスの設定
dataset2 = dataset.set_index('StoreCD')
#型変更
dataset['colum']=dataset['colum'].astype(int)
데이터 프레임 분해 및 결합
melt_concat.py
#データフレームの分解
meltDF1 = pd.melt(dataset,id_vars='index_column',var_name='horizon_axis_column_name',value_name='value_column_name')
#データフレームの結合
concatDF = pd.concat([meltDF1,meltDF2])
NULL 값 처리
null.py
dataset.fillna(0,inplace=True) #0埋め
dataset.isnull() #データフレーム全体で確認
dataset.isnull().any() #列ごとに確認
더미 변수
dummy.py
target_col = 'a'
str_colmns = ['b','c','d'] #数値でない列
dummie_cols = ['b'] #数値でない列の中でダミー化したい列
exclude_cols = [col for col in str_colmns if col not in dummie_cols] #
#ダミー変数化
df = pd.get_dummies(data=df, columns=dummie_cols)
#ダミー化した後の列から特徴量として利用する列を指定する
feature_cols = [col for col in df.columns if col not in exclude_cols]
시각화 및 탐색
항목 간의 상관 계수를 취합니다.
corr.py
corrDF = df[feature_cols].corr()
히트 맵
heatmap.py
import seaborn as sns
sns.heatmap(corrDF,annot=False) #annot=Trueで数値を表示する
겹치는 막대 그래프
distplot.py
import seaborn as sns
g=sns.FacetGrid(df,hue="target_column",height=3)
g.map(sns.distplot,"feature_column",kde=False)
g.add_legend()
seaborn 색상 설정
color.py
flatui = ['#969696', '#DA5019']
sns.set_palette(flatui)
comment
Reference
이 문제에 관하여(데이터 분석을 위한 부품 모음), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/discegaudere/items/203b3ce92d6a46644a48텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)