CDA와 EDA



이미지 출처: https://www.insilicogen.com/blog/361

CDA(Confirmatory Data Analysis)

  • CDA는 확증적 데이터분석으로 번역된다.
  • CDA는 전통적인 분석 방법으로, 가설을 먼저 설정한 후 수집한 데이터로 가설을 평가하고 추정하는 방식이다.

EDA(Exploratory Data Analysis)

  • EDA는 탐색적 데이터 분석으로 번역되며, 벨연구소의 수학자 ‘John Tukey’가 개발한 데이터분석 과정에 대한 개념이다.
  • EDA는 데이터에 대한 탐색과 이해를 의미한다.

EDA의 주요 목적

Goals of EDA
1. approach to understanding data using visualization and statiscal tools
2. access and validate assumptions. In which future inferences will be based.
3. understand data before performing and intelligent hypothesis

1. 시각화 및 통계 도구를 활용한 데이터 이해
2. 도출하고자 하는 결과의 기본이 되는 가정에 접근하고 가정을 검증
3. 가설을 세우기 전에 데이터를 이해

출처: https://velog.io/@yuns_u/EDA-Exploratory-Data-Analysis

전반적인 순서

  1. 데이터 분리
    • x와 y분리
    • train, val, test 셋 분리
  2. CDA & EDA
    • 1단계: 단변량 분석
      • 결측치 조치, 범주형 데이터에 대해 category로 타입 변경
    • 2단계: 이변량 분석
    • 3단계: x들끼리의 관계파악(다중공선성 문제)
  3. 데이터 전처리
    • 결측치 조치
      • 단변량 분석하면서 진행
      • 단변량 분석 시 boxplot은 결측치가 있으면 그려지지 않는다.
      • 또한 이변량 분석 시 t-test 등 가설검정도구들은 결측치가 있으면 계산이 안 된다.
    • 이상치 제거
      • 단변량 분석하면서 진행: 결측치 조치 후 boxplot
    • 가변수화
      • 단변량 분석에서 category로 타입 변경이 선행되어야함.
    • 스케일링(옵션)
    • 결측치 처리2(옵션)
  4. 모델링 - ML/DL

좋은 웹페이지 즐겨찾기