초보자를위한 pandas 기초 matplotlib에서 히스토그램 작성
pandas란?
Python에서 구조화 된 데이터 (테이블 형식의 데이터)를 처리하는 라이브러리입니다. 파일의 로드나 그 후의 가공·추출 처리등을 간단하게 실시할 수가 있고(SQL적인 감각으로 실시할 수 있다), 기계 학습등의 데이터의 전처리로 필수가 되는 라이브러리입니다.
다른 항목에 대한 목차는 여기입니다.
1. 히스토그램
히스토그램은 사전 준비 단계의 데이터 확인에 많이 사용됩니다. 이번에는 matplotlib과 같은 라이브러리를 사용합니다. Excel을 사용하면 번거로운 히스토그램을 쉽게 만들 수 있습니다. 데이터는 친숙한 타이타닉 데이터를 이용했습니다.
1.0. 라이브러리 가져오기 & 데이터 로드
pandas에 pd라는 이름을 붙여 import한다. 이번에는 matplotlib.pyplot도 plt라는 이름을 붙여 가져옵니다. 샘플 데이터가 타이타닉인 것 이용
import pandas as pd
import matplotlib.pyplot as plt
dataframe = pd.read_csv('train.csv')
dataframe.head()
1.1. 히스토그램 작성
연령(column「Age」)에서 히스토그램 작성합니다. dropna()에서 결측값을 삭제합니다.
plt.hist(dataframe['Age'].dropna(),bins = 10, range = (0,100),color = 'Blue')
plt.show()
bins(표시할 병 수), range(데이터 폭), clor(색상)을 지정합니다.
1.2. 히스토그램 작성(정규화)
정규화하여 전체 합계가 1이 되도록 합니다.
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue', normed = 'true')
plt.show()
1.3. 타이틀 등 추가
보기 쉽도록 제목 등을 추가합니다.
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue')
plt.show()
.title(타이틀), .xlabel(X축 레이블), .grid(그리드)를 추가합니다.
<응용> 적층 표시
남성(male)과 여성(femal)의 내역 표시를 누적 표시를 사용하여 표시합니다. 플롯을 준비하기 위해 각각 malelist_m과 malelist_f를 정의합니다.
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
복수 쌓아 올리고 싶은 경우는, hist([X1,X2])와 같이 표기합니다. stacked를 True로 하면 쌓입니다. (False라고 병기) label에서 범례를 정의합니다. .legend에서 범례를 추가합니다.
마지막으로
초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기이므로 다른 기사도 참고해 주시면 감사하겠습니다.
Reference
이 문제에 관하여(초보자를위한 pandas 기초 matplotlib에서 히스토그램 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Yanagawa_Yoshihisa/items/0bde331e5d41e2c28fe6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
히스토그램은 사전 준비 단계의 데이터 확인에 많이 사용됩니다. 이번에는 matplotlib과 같은 라이브러리를 사용합니다. Excel을 사용하면 번거로운 히스토그램을 쉽게 만들 수 있습니다. 데이터는 친숙한 타이타닉 데이터를 이용했습니다.
1.0. 라이브러리 가져오기 & 데이터 로드
pandas에 pd라는 이름을 붙여 import한다. 이번에는 matplotlib.pyplot도 plt라는 이름을 붙여 가져옵니다. 샘플 데이터가 타이타닉인 것 이용
import pandas as pd
import matplotlib.pyplot as plt
dataframe = pd.read_csv('train.csv')
dataframe.head()
1.1. 히스토그램 작성
연령(column「Age」)에서 히스토그램 작성합니다. dropna()에서 결측값을 삭제합니다.
plt.hist(dataframe['Age'].dropna(),bins = 10, range = (0,100),color = 'Blue')
plt.show()
bins(표시할 병 수), range(데이터 폭), clor(색상)을 지정합니다.
1.2. 히스토그램 작성(정규화)
정규화하여 전체 합계가 1이 되도록 합니다.
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue', normed = 'true')
plt.show()
1.3. 타이틀 등 추가
보기 쉽도록 제목 등을 추가합니다.
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue')
plt.show()
.title(타이틀), .xlabel(X축 레이블), .grid(그리드)를 추가합니다.
<응용> 적층 표시
남성(male)과 여성(femal)의 내역 표시를 누적 표시를 사용하여 표시합니다. 플롯을 준비하기 위해 각각 malelist_m과 malelist_f를 정의합니다.
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
복수 쌓아 올리고 싶은 경우는, hist([X1,X2])와 같이 표기합니다. stacked를 True로 하면 쌓입니다. (False라고 병기) label에서 범례를 정의합니다. .legend에서 범례를 추가합니다.
마지막으로
초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기이므로 다른 기사도 참고해 주시면 감사하겠습니다.
Reference
이 문제에 관하여(초보자를위한 pandas 기초 matplotlib에서 히스토그램 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Yanagawa_Yoshihisa/items/0bde331e5d41e2c28fe6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
import pandas as pd
import matplotlib.pyplot as plt
dataframe = pd.read_csv('train.csv')
dataframe.head()
연령(column「Age」)에서 히스토그램 작성합니다. dropna()에서 결측값을 삭제합니다.
plt.hist(dataframe['Age'].dropna(),bins = 10, range = (0,100),color = 'Blue')
plt.show()
bins(표시할 병 수), range(데이터 폭), clor(색상)을 지정합니다.
1.2. 히스토그램 작성(정규화)
정규화하여 전체 합계가 1이 되도록 합니다.
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue', normed = 'true')
plt.show()
1.3. 타이틀 등 추가
보기 쉽도록 제목 등을 추가합니다.
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue')
plt.show()
.title(타이틀), .xlabel(X축 레이블), .grid(그리드)를 추가합니다.
<응용> 적층 표시
남성(male)과 여성(femal)의 내역 표시를 누적 표시를 사용하여 표시합니다. 플롯을 준비하기 위해 각각 malelist_m과 malelist_f를 정의합니다.
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
복수 쌓아 올리고 싶은 경우는, hist([X1,X2])와 같이 표기합니다. stacked를 True로 하면 쌓입니다. (False라고 병기) label에서 범례를 정의합니다. .legend에서 범례를 추가합니다.
마지막으로
초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기이므로 다른 기사도 참고해 주시면 감사하겠습니다.
Reference
이 문제에 관하여(초보자를위한 pandas 기초 matplotlib에서 히스토그램 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Yanagawa_Yoshihisa/items/0bde331e5d41e2c28fe6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue', normed = 'true')
plt.show()
보기 쉽도록 제목 등을 추가합니다.
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue')
plt.show()
.title(타이틀), .xlabel(X축 레이블), .grid(그리드)를 추가합니다.
<응용> 적층 표시
남성(male)과 여성(femal)의 내역 표시를 누적 표시를 사용하여 표시합니다. 플롯을 준비하기 위해 각각 malelist_m과 malelist_f를 정의합니다.
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
복수 쌓아 올리고 싶은 경우는, hist([X1,X2])와 같이 표기합니다. stacked를 True로 하면 쌓입니다. (False라고 병기) label에서 범례를 정의합니다. .legend에서 범례를 추가합니다.
마지막으로
초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기이므로 다른 기사도 참고해 주시면 감사하겠습니다.
Reference
이 문제에 관하여(초보자를위한 pandas 기초 matplotlib에서 히스토그램 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Yanagawa_Yoshihisa/items/0bde331e5d41e2c28fe6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기이므로 다른 기사도 참고해 주시면 감사하겠습니다.
Reference
이 문제에 관하여(초보자를위한 pandas 기초 matplotlib에서 히스토그램 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Yanagawa_Yoshihisa/items/0bde331e5d41e2c28fe6텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)