파이썬으로 데이터 분석하기 (6)

강의완주/강의정보데이터 분석 및 bar그래프 그리기
다른 2개의 파일을 중복된 데이터를 기준으로 join을 사용해서 합친 다음, 합쳐진 테이블을 활용하여 bar그래프 그리기

1. 강의완주데이터 불러오기 및 가공

import pandas as pd
enroll = pd.read_csv('./data/enrolleds_detail.csv')
enroll

enroll_detail = enroll.groupby('lecture_id')['user_id'].count()
enroll_detail

2. 강의정보데이터 불러오기 및 가공

lectures=pd.read_csv('./data/lectures.csv')
lectures.tail(5)

lecture_count = pd.DataFrame(enroll_detail).reset_index()
lecture_count.head(5)

lecture_count = lecture_count.rename(columns = {'user_id':"count"}) #열이름 바꾸기
lecture_count.head(5)

lectures = lectures.set_index('lecture_id')
lectures.head(5) #중복데이터를 index로 만들어주기

3. join 시키고 bar그래프 그리기

full_lecture = lecture_count.join(lectures, on='lecture_id')
full_lecture

import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.figure(figsize=(22,5))
plt.bar(full_lecture['title'], full_lecture['count'])
plt.title('강의에 따른 수강완료 수의 합계')
plt.xlabel('강의명')
plt.xticks(rotation=90)
plt.show()

중복데이터를 왜 index로 먼저 만들어놔야되는지 잘모르겠.. 인터넷에 찾아봐야지 #sparta

좋은 웹페이지 즐겨찾기