CDA와 EDA
이미지 출처: https://www.insilicogen.com/blog/361
CDA(Confirmatory Data Analysis)
- CDA는
확증적 데이터분석
으로 번역된다.
- CDA는 전통적인 분석 방법으로, 가설을 먼저 설정한 후 수집한 데이터로 가설을 평가하고 추정하는 방식이다.
EDA(Exploratory Data Analysis)
- EDA는
탐색적 데이터 분석
으로 번역되며, 벨연구소의 수학자 ‘John Tukey’가 개발한 데이터분석 과정에 대한 개념이다.
- EDA는
데이터에 대한 탐색과 이해
를 의미한다.
EDA의 주요 목적
확증적 데이터분석
으로 번역된다.- EDA는
탐색적 데이터 분석
으로 번역되며, 벨연구소의 수학자 ‘John Tukey’가 개발한 데이터분석 과정에 대한 개념이다. - EDA는
데이터에 대한 탐색과 이해
를 의미한다.
EDA의 주요 목적
Goals of EDA
1. approach to understanding data using visualization and statiscal tools
2. access and validate assumptions. In which future inferences will be based.
3. understand data before performing and intelligent hypothesis
1. 시각화 및 통계 도구를 활용한 데이터 이해
2. 도출하고자 하는 결과의 기본이 되는 가정에 접근하고 가정을 검증
3. 가설을 세우기 전에 데이터를 이해
출처: https://velog.io/@yuns_u/EDA-Exploratory-Data-Analysis
전반적인 순서
- 데이터 분리
- x와 y분리
- train, val, test 셋 분리
- CDA & EDA
- 1단계: 단변량 분석
결측치 조치
, 범주형 데이터에 대해 category로 타입 변경
- 2단계: 이변량 분석
- 3단계: x들끼리의 관계파악(
다중공선성 문제
)
- 데이터 전처리
- 결측치 조치
단변량 분석하면서 진행
- 단변량 분석 시
boxplot은 결측치가 있으면 그려지지 않는다.
- 또한 이변량 분석 시
t-test 등 가설검정도구들은 결측치가 있으면 계산이 안 된다.
- 이상치 제거
- 단변량 분석하면서 진행:
결측치 조치 후 boxplot
- 가변수화
- 단변량 분석에서
category로 타입 변경
이 선행되어야함.
- 스케일링(옵션)
- 결측치 처리2(옵션)
- 모델링 - ML/DL
Author And Source
이 문제에 관하여(CDA와 EDA), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://velog.io/@songjeongwoo/CDA와-EDA
저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
- x와 y분리
- train, val, test 셋 분리
- 1단계: 단변량 분석
결측치 조치
,범주형 데이터에 대해 category로 타입 변경
- 2단계: 이변량 분석
- 3단계: x들끼리의 관계파악(
다중공선성 문제
)
- 결측치 조치
단변량 분석하면서 진행
- 단변량 분석 시
boxplot은 결측치가 있으면 그려지지 않는다.
- 또한 이변량 분석 시
t-test 등 가설검정도구들은 결측치가 있으면 계산이 안 된다.
- 이상치 제거
- 단변량 분석하면서 진행:
결측치 조치 후 boxplot
- 단변량 분석하면서 진행:
- 가변수화
- 단변량 분석에서
category로 타입 변경
이 선행되어야함.
- 단변량 분석에서
- 스케일링(옵션)
- 결측치 처리2(옵션)
Author And Source
이 문제에 관하여(CDA와 EDA), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@songjeongwoo/CDA와-EDA저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)