데이터 분석 프로그래밍 0322 Tue
Data Visualization Basic(samples) 다운 받기
Preview
pandas_data_cleaning 파일
저번 시간 공백, 결측치 데이터를 없앨 때 대여소 번호, 대여 시간이 삭제안되는 이슈
연속적 수치라고 하면 평균값으로 대치할 때 오류 -> 범주형 데이터가 포함되어 있어 평균값 구할 때 오류 발생.
이를 해결하려면 범주형이 아닌 수치형 데이터초로만 측정을 하면 됨.
결측치 정보 없애기, 대체하는 법 다룸.
-
이상 데이터
나이가 120살인 4번 인덱스 row.
4번 인덱스를 드롭하면 해결?boxplot의 특징
선 = median 값(중간값=but 평균은 아님)
평균은 점, 삼각형으로 나타낼 수 있음.
max값, min값을 보여줌.
25%, 75%를 박스로 표시함. 대충 나이가 갖는 범위를!
그곳을 벗어난 범위의 데이터 존재(아웃라이너)중복데이터
똑같은 데이터가 리소스만 많이 차지(하드, ssd) => 중복데이터 찾아서 제거
공공데이터 포털에서 데이터를 다운받으면 중복, 결측치가 없으나 교수님이 추가하심.
row 데이터에 대해 식별할 수 있는 데이터
나이+이용거리면 식별할 수 있는 데이터가 됨(중복x)first: 처음 중복되는 값을 false로 반환
last: 처음 중복되는 값을 true로 반환, 나머지 false -
drop_duplicates: 중복 제거, 유일한 1개 키만 남기고 나머지는 중복 제거
Data Visualization Basic samples
평균, 표준편차가 같으면 같은 데이터? 다른 데이터?
다른 데이터일 수 있음.
엔스폼 이라는 사람이 수치만 가지고 나타날 수 있는 데이터분석의 한계를 제시범주형 데이터 => 카테고리로 묶을 수 있음(groupby)
데이터에 따라 line / box plot를 선택해 그래프를 그린다.
fig=plt.figure()
전체 그래프가 위치할 기본 틀 생성
sub_plot: 1,2,3,4 사분면으로 나눠 그래프 그림

>https://wikidocs.net/book/5011
한글화문서 참고해서 matplotlib과 친해지기
https://matplotlib.org/
공식문서를 들어가서그려진 그래프들을 확인 => 다음에 그래프를 그리게 될 때 참고할 것


>https://wikidocs.net/book/5011
한글화문서 참고해서 matplotlib과 친해지기
https://matplotlib.org/
공식문서를 들어가서그려진 그래프들을 확인 => 다음에 그래프를 그리게 될 때 참고할 것

import matplotlib as mpl
import matplotlib.pyplot as plt
실질적으로 화면에 뿌리는 기능은 `mpl.rcParams`로 설정한다.
pylab= matplotlib과 numpy가 합쳐진 것.
리스트로 입력하면 패키지가 알아서 그래프를 그려줌.
maker에 어떤 모양으로 점을 찍을 지 결정.
matplotlib말고 seaborn을 쓰면 파스텔 톤 그래프 그리기 가능.
범례 추가

-기호, 한글이 잘 안보이면 한글 폰트를 설정해주고 unicode_minus를 False 설정한다.

주피터 노트북은 자동완성 기능까지는 제공해줌.
박스플롯: 데이터 집합의 범위와 이상값 확인용

평균 값 표시가능.
축은 vertical이 기본이나 축 변경도 가능.

total bill의 경우 40달러 보다 작고 tip의 경우 8달러 보다 작은 데이터 추출

244개
True 결과만 뽑아줘

10개의 데이터가 삭제되고 234개의 데이터 추출(이상치 데이터를 삭제)
조건을 계속 달면 아웃라이너가 계속 나올 수 있음.
matplotlib의 경우 복잡한 일을 해결
seaborn의 경우 복잡한 것을 가독성 좋고 예쁘게 보이게끔 함.
## seaborn
범주형데이터, 연속형 데이터 사용하는 유형이 있으나 필수적으로 따라해야할 필요는 없음.
> 커널밀도함수가 어떤것? 이런 기능이 있다 정도만 알아둘것.

- 다변량 연속형
일일이 그래프를 그리지 않고 여러가지 그래프를 볼 수 있음.
day별로 total_bill을 표시하기

## Interactive 시각화
상호작용이라는 뜻의 interactive.
상호관계라는게 클라이언트에게 데이터를 뿌리기만 하는 것이 아니라 그래프를 확대, 축소가 가능하게끔


> google에 interactive 시각화를 검색하면 굉장히 많은 기능이 나옴.
데이터분석에 필요한 numpy(파라미터 생성할때 순차적인 행렬, 간격 정할 때 이용-deep learning때), pandas(데이터 유형, 탐색), seaborn을 통해 그래프 그려봄.
3주뒤 정도 다시 다룰 듯.
크롤링(데이터 확보 방법)
이런 기능들이 있었지..중복데이터 제거, 대체, 삭제하는법.. 해당 column에 있는 값 수정하는 법 등 키워드를 중심으로 구글링할 수 있어야.
시험 문제로 나올 예정(누가 빨리 찾느냐)
꼭 실습을 해봐야 함!
Author And Source
이 문제에 관하여(데이터 분석 프로그래밍 0322 Tue), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@allzeroyou/데이터-분석-프로그래밍-0322-Tue저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)