[데이터사이언스] Diary - (11)

  1. 분산

    데이터가 얼마나 퍼져있는지를 측정하는 방법
    각 값들의 평균으로부터 차이의 제곱 평균이다.
    분산을 구하기 위해서 우선 평균을 먼저 계산해야한다.

  2. 표준편차

    분산은 기본적으로 제곱을 하기 때문에 값이 크다.
    그래서 값을 보다 작은사이즈로 만들어주기 위해 표준편차를 사용한다.

  3. 공분산

    변수 1개값이 변화할때 다른 변수가 어떤 연관성을 나타내면서 변하는지를 측정하는 방법

    (a) Cov(x,y) > 0 	x가 증가할때 y도 증가한다
    (b) Cov(x,y) < 0	x가 증가할때 Y는 감소한다
    (c) Cov(x,y) = 0	공분산이 0인경우 두 변수간에는 어떤 선형관계도 없으며 두 변수는 서로 독립관계에 있다.

    공분산 값이 크면 두 변수의 연관성이 높다고 보나
    만약 두 변수의 데이터 스케일이 다를경우 실제 연관성에 영향을 미칠수 있게 된다. 변수의 연관성이 낮으나 스케일이 크면 공분산값이 높게 나올수 있고 반대로 변수의 연관성이 높으나 스케일이 작으면 공분산값이 낮게 나올수가 있다. 이런 부작용이 있기 때문에 이것을 보정해줄 필요가 있다.

  4. 상관계수

    위에서 공분산을 보정해줄 필요가 있다고 했는데 바로 이 상관계수를 이용해 보정해줄수 있다.

	1.상관계수의 절대값은 1을 넘을 수 없다.
    2.확률변수 x,y가 독립이라면 상관계수는 0 이다.
    3.x,y가 선형관계라면 상관계수는 1(양의 선형관계) or -1(음의 선형관계) 이다. 

좋은 웹페이지 즐겨찾기