하버드 대의 WEB 강좌에서 R을 사용한 데이터 과학 입문을 해본다 Part.6 그래프 작성

3121 단어 RedX입문
과거 게시물

제1회
제2회
제3회
제4회
제5회

데이터 과학이라고 하면 데이터의 가시화, 즉 그래프 작성이 중요해지고 있습니다. 우선은 단순히 살인 건수와 인구의 그래프를 만들어 보겠습니다.
> poplation_in_millions <- murders$population/10^6
> total_gun_murders <- murders$total
> plot(poplation_in_millions, total_gun_murders)



신속하게 그래프가 나왔습니다. 인구와 살인 건수에 양의 상관 관계가 있음을 알 수 있습니다.
여기서 신경이 쓰인 것은 살인 건수는 1건당의 인원수 세어 있습니까? 라든지 사고와 사건, 정당 방위라든지 어떻게 구별하고 있습니까? 그런데, 그런 점을 포함하여 시각화하고 검증 할 수 있습니다.
필요한 것입니다. (마이클 무어의 영화에서 연간 1만 수천명이라고 말한 것 같은 생각이 든다.)

다음으로 히스토그램을 만들어 보겠습니다. 무슨 의미일까....
(히스토그램이란, 종축에 도수, 가로축에 계급을 취한 통계 그래프의 일종으로, 데이터의 분포 상황을 시각적으로 인식하기 위해서 주로 통계학이나 수학, 화상 처리 등에서 사용된다. 주상도, 주상 그래프, 도수 분포도라고도 한다.
이쪽에 대해서는 다른 강좌에서 자세하게 할게, 라는 것이었습니다.
간단히 hist로 플롯(작도)할 수 있습니다. rate를 murders안에 추가한 상태가 아니면 안 되므로, 이걸 읽어 주고 있는 사람 중(안)에서 일이 열린 사람은 주의합시다
hist(murders$rate)



한 개만 불규칙한 데이터가 있으므로 조사합시다.
> murders$state[which.max(murders$rate)]
[1] "District of Columbia"

District of Columbia (워싱턴 D.C.)가 날아갈 위험.... 불안은 넘치지 않았다.

또 하나, boxplot라는 기능도 있습니다. google 번역은 상자 수염 다이어그램으로 번역되었습니다. 주식에서 자주 촛불 같은 녀석입니까?
> boxplot(rate~region, data =murders)



이것에 대해 어떤 의미가 있는지 설명하지 않았습니다. 최대치, 최소치와 평균치같은 것일까라고도 생각했습니다만, South의 튀어나온 점은 그것이라고 설명할 수 없고....
그렇지만 4개의 ​​지역에 정리한 그래프가 한순간에 나오는 것은 편리하네요.
이 조작은 ggplot라는 패키지를 인스톨 해 사용할 수 있습니다만, 편리하기 때문에 초보자에게는 마스트인 기능일 것입니다.

이 후의 그래프의 작은 테스트와 평가는 꽤 간단하다고 생각합니다. 다만, 예에 따라 문제가 무슨 말을 하고 있는가 까다롭지 않으면 뭐해도 좋은지 모르겠다. 간단하게 할 수 있는 문제의 간단함으로 하면 난이도는 상당히 낮아 같은 생각이 듭니다만....
이것으로 3장이 끝나고 다음번 최종장에서는 프로그래밍 요소가 들어간 사용법을 배웁니다.

제7회 에 계속

좋은 웹페이지 즐겨찾기