【Kaggle】 자주 사용하는 데이터 시각화 방법

6397 단어 기계 학습Kaggle

1. 목적



Kaggle을 시작으로 데이터 분석을 할 때,
거의 매번 사용에도 불구하고 쓰는 법을 잊고 매번 검색하는 코드가 있습니다.

매번 「이것을 사용하고 싶다」라는 코드는 비교적 정례화되어 있으므로, 축적해 두는 것이 목적입니다.

2.사용 데이터



널리 알려진 카글 타이타닉을 테마로합니다.

3. 목적별 코드



(1) 그 전에 · ·



필요한 것을 가져오고 데이터를 읽습니다.
#インポート(不要なものも一部あり)
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
matplotlib.style.use('ggplot')
%matplotlib inline

#データ読み込み
df_train =  pd.read_csv("C:train.csv")
df_test = pd.read_csv("C:test.csv")


(2) 특정 조건의 정보를보고 싶다.



(ⅰ) 단일 조건의 경우



예를 들어, 먼저 Fare를 히스토그램화합니다.
sns.distplot(df_train["Fare"])



그렇다면 대부분이 낮은 곳에 굳어 졌음에도 불구하고 일부는
500을 넘는 사람들이 있네요.

이 사람들의 다른 설명 변수에 대한 정보도보고 싶다면 다음과 같이하십시오.
이 []와 ()의 사용법을 매번 잊어 버리는 것입니다.
df_train_Fare = df_train[(df_train["Fare"] > 500)]
df_train_Fare

그러면 이와 같이 Fare가 500이상의 사람이 표시(이 경우는 3명)되므로,
뭔가 다른 변수에 특징이 없습니까? 등등을 분석할 수 있습니다.



덧붙여서 조건이 수치(전의 예로 말하면 500 이상)가 아니고 카테고리(문자열)의 경우는 이렇게 합니다.
#例えば、男性だけのデータをdf_train_Sexに格納
df_train_Sex = df_train[(df_train["Sex"] == "male")]

#男性だけのFareのヒストグラムを描画
sns.distplot(df_train_Sex["Fare"])



(ii) 다중 조건의 경우



앞의 예에서, 예를 들어 Fare가 500 이상이고 남성 데이터를 참조하고 싶습니다.
(데이터 분석상, 수요가 있는지는 별개로)

이 경우 아래와 같이 여러 조건을 연결합니다.
나는이 쓰기를 자주 잊어 버린다.
df_train_male_Fare = df_train[(df_train["Fare"] > 500) & (df_train["Sex"] == "male")]
df_train_male_Fare

이렇게하면 Fare가 500 개 이상의 남성 데이터가 추출됩니다!


위는 '가시(&)'로 묶었지만, '또는(or)'로 묶고 싶은 경우는 '&'를 '|'로 묶어 주세요.

(3) groupby하고 싶다.



예를 들어 Pclass 당 Age의 평균을보고 싶습니다.
그럴 때 groupby를하는 것이 좋지만이 방법도 좋다.
잊어버립니다.
groupby = df_train["Age"].groupby(df_train["Pclass"]).mean()

#データフレーム化
groupby = pd.DataFrame(groupby)

groupby

Pclass 당 평균 연령을 낼 수 있었습니다!


4. 매듭



자주 사용하는 코드를 삼가하는 것도 번잡하고, 라고 해서 매번 조사하는 것도 비효율이라고 느끼는 장면이 많다고 생각합니다.

이번 코드는 비교적 세세한 조사를 할 때 사용하는 장면이 많다고 생각하므로,
조금이라도 도움이되면 다행입니다.

좋은 웹페이지 즐겨찾기