데이터 분석 프로그래밍 0322 Tue
Data Visualization Basic(samples) 다운 받기
Preview
pandas_data_cleaning 파일
저번 시간 공백, 결측치 데이터를 없앨 때 대여소 번호, 대여 시간이 삭제안되는 이슈
연속적 수치라고 하면 평균값으로 대치할 때 오류 -> 범주형 데이터가 포함되어 있어 평균값 구할 때 오류 발생.
이를 해결하려면 범주형이 아닌 수치형 데이터초로만 측정을 하면 됨.
결측치 정보 없애기, 대체하는 법 다룸.
-
이상 데이터
나이가 120살인 4번 인덱스 row.
4번 인덱스를 드롭하면 해결?boxplot의 특징
선 = median 값(중간값=but 평균은 아님)
평균은 점, 삼각형으로 나타낼 수 있음.
max값, min값을 보여줌.
25%, 75%를 박스로 표시함. 대충 나이가 갖는 범위를!
그곳을 벗어난 범위의 데이터 존재(아웃라이너)중복데이터
똑같은 데이터가 리소스만 많이 차지(하드, ssd) => 중복데이터 찾아서 제거
공공데이터 포털에서 데이터를 다운받으면 중복, 결측치가 없으나 교수님이 추가하심.
row 데이터에 대해 식별할 수 있는 데이터
나이+이용거리면 식별할 수 있는 데이터가 됨(중복x)first: 처음 중복되는 값을 false로 반환
last: 처음 중복되는 값을 true로 반환, 나머지 false -
drop_duplicates: 중복 제거, 유일한 1개 키만 남기고 나머지는 중복 제거
Data Visualization Basic samples
평균, 표준편차가 같으면 같은 데이터? 다른 데이터?
다른 데이터일 수 있음.
엔스폼 이라는 사람이 수치만 가지고 나타날 수 있는 데이터분석의 한계를 제시범주형 데이터 => 카테고리로 묶을 수 있음(groupby)
데이터에 따라 line / box plot를 선택해 그래프를 그린다.
fig=plt.figure()
전체 그래프가 위치할 기본 틀 생성
sub_plot: 1,2,3,4 사분면으로 나눠 그래프 그림
![](https://media.vlpt.us/images/allzeroyou/post/a2dffd99-ec60-4f68-a445-ffd75f3ddf6f/image.png)
>https://wikidocs.net/book/5011
한글화문서 참고해서 matplotlib과 친해지기
https://matplotlib.org/
공식문서를 들어가서그려진 그래프들을 확인 => 다음에 그래프를 그리게 될 때 참고할 것
![](https://media.vlpt.us/images/allzeroyou/post/eb8ab7b8-2b74-49ec-81ce-2e12db0b0c07/image.png)
![](https://media.vlpt.us/images/allzeroyou/post/a2dffd99-ec60-4f68-a445-ffd75f3ddf6f/image.png)
>https://wikidocs.net/book/5011
한글화문서 참고해서 matplotlib과 친해지기
https://matplotlib.org/
공식문서를 들어가서그려진 그래프들을 확인 => 다음에 그래프를 그리게 될 때 참고할 것
![](https://media.vlpt.us/images/allzeroyou/post/eb8ab7b8-2b74-49ec-81ce-2e12db0b0c07/image.png)
import matplotlib as mpl
import matplotlib.pyplot as plt
실질적으로 화면에 뿌리는 기능은 `mpl.rcParams`로 설정한다.
pylab= matplotlib과 numpy가 합쳐진 것.
리스트로 입력하면 패키지가 알아서 그래프를 그려줌.
maker에 어떤 모양으로 점을 찍을 지 결정.
matplotlib말고 seaborn을 쓰면 파스텔 톤 그래프 그리기 가능.
범례 추가
![](https://media.vlpt.us/images/allzeroyou/post/81be16d4-8e97-47ba-98c1-d5323bca30c6/image.png)
-기호, 한글이 잘 안보이면 한글 폰트를 설정해주고 unicode_minus를 False 설정한다.
![](https://media.vlpt.us/images/allzeroyou/post/80dec175-6dd6-4248-8b16-b37b528a57c9/image.png)
주피터 노트북은 자동완성 기능까지는 제공해줌.
박스플롯: 데이터 집합의 범위와 이상값 확인용
![](https://media.vlpt.us/images/allzeroyou/post/b262bee5-9cf4-4c20-aa13-7064914615a2/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.47.01.png)
평균 값 표시가능.
축은 vertical이 기본이나 축 변경도 가능.
![](https://media.vlpt.us/images/allzeroyou/post/0fca12f6-424f-4347-9046-65bd536c6854/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.48.00.png)
total bill의 경우 40달러 보다 작고 tip의 경우 8달러 보다 작은 데이터 추출
![](https://media.vlpt.us/images/allzeroyou/post/33606045-bb9e-4295-b806-70a8834df8dd/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.51.06.png)
244개
True 결과만 뽑아줘
![](https://media.vlpt.us/images/allzeroyou/post/c5d9d5d4-02d0-4e83-88a4-1958849ac588/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.48.57.png)
10개의 데이터가 삭제되고 234개의 데이터 추출(이상치 데이터를 삭제)
조건을 계속 달면 아웃라이너가 계속 나올 수 있음.
matplotlib의 경우 복잡한 일을 해결
seaborn의 경우 복잡한 것을 가독성 좋고 예쁘게 보이게끔 함.
## seaborn
범주형데이터, 연속형 데이터 사용하는 유형이 있으나 필수적으로 따라해야할 필요는 없음.
> 커널밀도함수가 어떤것? 이런 기능이 있다 정도만 알아둘것.
![](https://media.vlpt.us/images/allzeroyou/post/56ae3598-5562-4e52-9108-dbf9e63261a5/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.54.38.png)
- 다변량 연속형
일일이 그래프를 그리지 않고 여러가지 그래프를 볼 수 있음.
day별로 total_bill을 표시하기
![](https://media.vlpt.us/images/allzeroyou/post/290eae95-e9d4-4787-b2eb-ce11077db2ef/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.55.42.png)
## Interactive 시각화
상호작용이라는 뜻의 interactive.
상호관계라는게 클라이언트에게 데이터를 뿌리기만 하는 것이 아니라 그래프를 확대, 축소가 가능하게끔
![](https://media.vlpt.us/images/allzeroyou/post/5b7b42cf-cc21-4659-a708-1e6791af6c24/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.48.00.png)
![](https://media.vlpt.us/images/allzeroyou/post/8ac6df1b-0a01-4835-9727-471f1a744e9d/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-03-22%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%2012.58.51.png)
> google에 interactive 시각화를 검색하면 굉장히 많은 기능이 나옴.
데이터분석에 필요한 numpy(파라미터 생성할때 순차적인 행렬, 간격 정할 때 이용-deep learning때), pandas(데이터 유형, 탐색), seaborn을 통해 그래프 그려봄.
3주뒤 정도 다시 다룰 듯.
크롤링(데이터 확보 방법)
이런 기능들이 있었지..중복데이터 제거, 대체, 삭제하는법.. 해당 column에 있는 값 수정하는 법 등 키워드를 중심으로 구글링할 수 있어야.
시험 문제로 나올 예정(누가 빨리 찾느냐)
꼭 실습을 해봐야 함!
Author And Source
이 문제에 관하여(데이터 분석 프로그래밍 0322 Tue), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@allzeroyou/데이터-분석-프로그래밍-0322-Tue저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)