'이상 검측과 변화 검측(기계 학습 전공 시리즈)'의 총결

우물손 선생"이상 감지 및 변경 감지"의 요점을 총결하였다.

Chapter1


태그 데이터가 있는 경우


네만 필슨이 규칙을 결정한다
관측 데이터는 $\boldsymbolx$이고 이상, 정상적인 2치 라벨은 $y$이며 조건확률비(밀도비, 유사비)가 한도값을 초과할 때 이상($y=1$)으로 판정됩니다.
$$a(\boldsymbol x') =\ln\frac{p(\boldsymbol{x'}\mid y=1, D)}{p(\boldsymbol{x'}\mid y=0, D)}$$

태그 데이터가 없는 경우


우선, 학습 중의 데이터에 이상 데이터가 포함되지 않거나 극소수의 데이터만 포함된다고 가정해야 한다.
$\boldsymbolx의 확률 분포 $p(\boldsymbolx\mid)를 어떤 방법으로 얻었다고 가정합니다.
다음 공식의 음수 유사도(정보량)는 이상도다.희귀한 관측치를 얻을 수 있을수록 대응 이상도가 커진다.
$$a(\boldsymbol x') = -\ln p(\boldsymbol x'\mid D)$$

평가 지표


이상 검출은 대부분 불균형 데이터를 처리한다.따라서 Precition, Recall 대신 F값 또는 AUC를 사용하는 것이 좋습니다.

Chapter2 Hotering의 T^2법


모든 견본이 다변량의 정적 분포를 독립적으로 따른다고 가정하자.

데이터에 따라 추정되는 평균 협방차 행렬 (각각 $\hat{\mu},\hat{Sigma}$) 을 사용하여 다음 마하라노비스 거리에 따라 이상도를 정의합니다.관측 데이터의 평균치와 얼마나 차이가 나는지 나타낸다.위의 그림에서 이상도를 색깔로 표현합니다.
$$a(x')=(x' -\hat{\mu})^\mathsf{T}\hat{\Sigma}^{-1} (x' -\hat{\mu})$$
여기서 견본 수량 $N달러가 데이터의 차원 $M보다 크면 $a(x')달러는 자유도 $$$$$$$$$$$$$$$$$$\chi^2달러의 분포를 이용하여 예정된 오보율을 바탕으로 이상 한도값을 설정할 수 있습니다.

Chapter3 심플 베스법


순수 베이스 방법에서 데이터의 각 차원이 독립적이라고 생각하고 매개 변수의 평가를 한다.변수 간에 연관이 있는 경우 순조롭지 않다.
2치 분류에서 일반적으로 사용하는 Bays 결정 규칙(하식)은 오류 확률을 최소화하는 판단 규칙이지만 이상 검출의 경우 $p(y=1)\llp(y=0)$$s이기 때문에 이상 판정을 강하게 억제한다.판정의 한도값을 적절하게 조정해야 한다.
$$\ln\frac{p(y=1\mid x)}{p(y=0\mid x)} =\frac{p(x\mid y=1)p(y=1)}{p(x\mid y=0)p(y=0)}>0\\Leftrightarrow\y=1 $$

Chapter 4 이웃법


데이터가 다변량의 정적 분포를 따르는 가설이 부적절하다(예를 들어 분포가 다봉인 경우)에 적용되는 방법도 마찬가지다.
Local outlier factor(로컬 편차 값), 가장자리 최대화 근접법 등이 있다.

Chapter 5 혼합 분포 모델


혼합 분포 모델을 데이터에 의합한 토대에서 새로운 데이터의 음대수를 유사하게 계산하고 이를 이상도로 사용한다.매개변수는 EM 알고리즘 등을 사용하는 것으로 추정됩니다.
단일 다변량의 정적 분포에만 한정된 조개 방법의 단점을 개선한 방법

Chapter6 지원 벡터 데이터


스케줄을 업데이트합니다.

Chapter 10 Subscription


예를 들어 평균치가 변하지 않는 양을 감시하는 방법.변수 간에 일정한 관계를 유지하는 동시에 값 자체가 변화하는 데이터에 대해 변수 간의 관계에 착안한 이상 검측을 고려할 수 있다.
도표로 변수의 관계를 나타내는 것을 고려하다.

pairwise Markov graph


2 변수 간의 관계에 주목하는 간단한 모델.
"두 변수 독립"$\Lefttrighttarow$"두 노드를 연결하는 가장자리가 없습니다."

Gaussian graphical model


다변량의 정적 분포를 확률 분포의 마르코프도 모델로 가정하다.
pairwise Markev graph의 경우 각 성분을 표준화하는 기초 위에서
"정밀도 매트릭스 $\Delta$(i,j) 달러 성분 $\Delta{i,j} = 0 달러"$\Leftrightarow$"$xi,xj달러 독립"

graphical LASSO


다변수 정적 분포의 정밀도 행렬을 얻으면 변수 간의 관련 구조를 알 수 있다.
이때 본질적으로 포착된 직접적이고 희소한 정밀도 행렬을 우선적으로 구한다.
Graphical Lasso는 다차원 정적 분포의 정밀도 행렬을 해석 추정하는 방법이다.
라프라스 분포를 정밀도 매트릭스의 예비 분포로 설정한 후, MAP 추측을 통해 정밀도 매트릭스를 추측하면
$$\Delta^* =\rm{argmax}_\Delta (\ln det\Delta -\rm{tr}(S\Delta) -\rho ||\Delta || _1)$$
이렇게 된 거 알아.여기는 $|\Delta |1달러는 $\Delta의 비대각 성분의 절대값의 합이다.
3항은 이른바 L1의 정규화 형식이다.정규화 매개 변수 $\rho 달러는 교차 검증에 의해 결정됩니다.
다음 그림은 정규화 파라미터가 커지면서 추정되는 도표 구조에 변화가 발생하는 상황을 나타낸다.

출전: http://statweb.stanford.edu/~tibs/sta306bfiles/graph_main.pdf
Python의 구현 예 참조scikit-learn 문서.개요는 아래와 같다.
균등한 협방차 행렬을 가진 다변량 정적 분포에서 상대적으로 적은 샘플을 얻을 수 있고 일반적으로 샘플의 협방차 행렬을 얻더라도 해석되지 않는다.그러나 Graphical Lasso를 사용하면 진정한 협방차 행렬에 가까운 희소 행렬을 추정할 수 있다.

이상도 계산


Graphical Lasso의 정밀도 행렬로 추정되는 결과를 이용한 이상 검출 방법은 두 가지다.
하나는 새로운 데이터 $x'$를 관측할 때 변수의 이상도를 계산하는 것입니다.다른 변수가 기대하는 값과 얼마나 다른지를 나타내는 양이다.
다른 하나는 새로운 데이터 집합 $D'달러를 획득할 때 정상적인 상황에서 $D$D와의 차이를 분석할 때입니다.이 경우 $i 변수의 이상도는 $p (x i\midx {-i}, D) 와 $p (x i\midx {-i}, D) 의 KL 분집을 이상도로 사용하는 것이 좋습니다.

좋은 웹페이지 즐겨찾기