AIFFEL(220218)_정보이론 톺아보기

NODE : 28. 정보이론 톺아보기

학습목표

머신러닝 이론의 이론적 토대를 이루는 가장 중요한 이론 중 하나인 정보이론(Information Theory)에 대해 알아본다.
머신러닝에서 많이 사용되는 Entropy, Cross Entropy, KL divergence 등의 개념과 이런 개념들이 머신러닝 이론과 연결되는 사례를 파악해 본다.

📖 Information Content

정보 이론(information theory)이란 추상적인 '정보'라는 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야이다.

Information Content

눈에 보이지 않는 '정보'를 어떻게 정량적으로 표현할 수 있을까? 아래 그림처럼 두 개의 주머니에 공이 들어 있다고 생각해보자. 왼쪽 주머니에는 4가지 색깔의 공들이 들어있고, 오른쪽 주머니에 들어 있는 공은 모두 파란색이다.

왼쪽 주머니에서 공을 하나 꺼내서 색깔을 보고 다시 넣는 과정을 반복하면, 관찰된 공의 색깔은 4가지 중 무작위이다. 반면에 오른쪽 주머니에서 공을 꺼낸다면 파란색 공만 관찰될 것이다. 직관적으로 주머니에서 공을 꺼낼 때 우리가 얻을 수 있는 정보의 양은 왼쪽이 더 많다. 오른쪽 주머니에서는 공을 꺼내봤자 어차피 파란색이니 별다른 정보가 없는 것이다. 오늘 아침에 해가 동쪽에서 떴다는 이야기가 뉴스거리가 되지 못하는 것과 같은 이유이다.

상황을 약간 바꿔서, 파란색 공 999개와 빨간색 공 1개가 들어 있는 주머니가 있다고 하자. 어떤 사람이 공을 하나 꺼내고 다시 넣는 실험을 반복한다. 이 사람은 주머니에 어떤 색깔의 공이 몇 개씩 들어 있는지 모르기 때문에, 공을 하나씩 뽑을 때마다 이 사람이 추측하는 확률 분포가 업데이트된다. 파란색 공을 처음 몇 번 뽑았을 때, 파란색 공을 뽑는 사건은 정보량이 높다. 하지만 파란색 공만 수십, 수백 번 뽑고 나서는 파란색 공을 뽑는 사건은 확률이 1에 가깝기 때문에 큰 의미를 주지 못한다. 그러다가 만약에 하나 있는 빨간색 공을 뽑는다면, 이 사건은 정보량이 엄청나게 높을 것이다. 빨간색 공을 뽑기 전까지 관찰된 파란색 공의 수가 많을수록(즉 빨간색 공이 뽑힐 확률이 낮을수록) 빨간색 공을 뽑는 사건의 정보량은 높아진다.

Goodfellow, Bengio, Courville의 책 Deep Learning에는 정보를 정량적으로 표현하기 위해 필요한 세 가지 조건이 설명되어 있다.

일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가 없는 것이나 마찬가지이다.
일어날 가능성이 낮은 사건은 정보량이 높다.
두 개의 독립적인 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같다.

사건 $x$

I(x)=−log_bP(x)

이 식은 위의 세 가지 조건을 모두 만족하는 것을 확인할 수 있다. 로그의 밑 $b$

import numpy as np
import math
import random

# 주머니 속에 들어있는 공의 개수입니다. 숫자를 바꾸면서 실험해보세요!
total = 1000

#---------------#

count = 1   # 실험이 끝날 때까지 꺼낸 공의 개수

# 1부터 total까지의 정수 중에서 하나를 뽑고 total과 같으면 실험 종료
# total=1000인 경우 1~999: blue / 1000: red
while True:
    sample = random.randrange(1,total+1)
    if sample == total:
        break
    count += 1

print('number of blue samples: '+str(count-1))
print('information content: '+str(-math.log(1/count)))

# 실험결과
number of blue samples: 1620
information content: 7.390798521735676

📖 Entropy

이전 스텝을 돌이켜보면, 사건 $x$

I(x)=−logP(x)

정보량은 한 가지 사건에 대한 값이다. 예를 들면 주사위를 던졌을 때 1이 나오는 사건, 여러 색깔의 공이 들어 있는 주머니에서 빨간색 공을 꺼내는 사건 등이다. 그러면 여러 가지 경우의 수가 존재하는 실험의 정보량도 구할 수 있을까? 직관적으로 확률 변수가 가지는 모든 경우의 수에 대해 정보량을 구하고 평균을 내면 확률 변수의 평균적인 정보량을 구할 수 있을 것이다. 특정 확률분포를 따르는 사건들의 정보량 기댓값을 엔트로피(entropy)라고 한다.

For Discrete Random Variables

이산 확률 변수 $X$

아래 그림은 동전을 던질 때 앞면이 나올 확률에 따른 엔트로피를 나타낸 그래프이다. 앞면이 나올 확률이 0.5일 때(앞면과 뒷면의 확률이 각각 0.5로 같은 균등 분포(uniform distribution)) 엔트로피 값이 최대가 된다. 앞면이 나올 확률이 90%인 동전을 던질 때보다 앞면과 뒷면의 확률이 같은 동전을 던질 때 결과를 예측하기가 더 어렵기 때문에 불확실성이 크다고 할 수 있다.

For Continuous Random Variables

$X$

h ( X ) = − ∫ p ( x ) \log p ( x ) d x

연속 확률 변수의 엔트로피를 이산 확률 변수와 구분하여 미분 엔트로피(differential entropy)라고 부르기도 한다.

📖 Kullback Leibler Divergence

머신러닝의 목표는 새로운 입력 데이터가 들어와도 예측이 잘 되도록, 모델의 확률 분포를 데이터의 실제 확률 분포에 가깝게 만드는 것이다. 머신 러닝 모델은 크게 두 가지가 있다. 우선 결정 모델(discriminative model)은 데이터의 실제 분포를 모델링 하지 않고 결정 경계(decision boundary)만을 학습한다. 예를 들면 모델의 결괏값이 0보다 작을 경우 데이터를 1번 클래스로 분류하고, 0보다 클 경우 2번 클래스로 분류하는 식이다. 반면에 생성 모델(generative model)은 데이터와 모델로부터 도출할 수 있는 여러 확률 분포와 베이즈 이론을 이용해서 데이터의 실제 분포를 간접적으로 모델링 한다. 그렇기 때문에 생성 모델을 학습시킬 때는 두 확률 분포의 차이를 나타내는 지표가 필요한데, 대표적인 예가 쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence)이다.

데이터가 따르는 실제 확률 분포를 $P(x)$

연속 확률 변수의 경우에는 다음과 같다.

D_{KL}(P||Q)=\int P(x)\log\Big(\frac{P(x)}{Q(x)}\Big)dx

KL divergence는 두 확률 분포의 차이를 나타내는 값이기 때문에 거리 함수와 비슷한 성질을 가지고 있다. 다만 KL divergence의 식에는 기준이 되는 확률 분포가 존재하기 때문에 $D_{KL}(P||Q)$

KL divergence의 대표적인 특성은 아래와 같다.

$D_{KL}(P||Q) \ge 0$
$D_{KL}(P||Q)=0$
non-symmetric : $D_{KL}(P||Q) \neq D_{KL}(Q||P)$

머신러닝 문제에서는 두 확률 분포의 차이를 줄여 $D_{KL}(P||Q)$

Cross Entropy

$P(x)$

H(P,Q)=H(P)+D_{KL}(P||Q)

이렇게 해서 정답셋의 확률분포 P와 우리 모델의 추론 결과의 확률분포 Q 의 차이 KL divergence를 최소화하는 것, 즉 우리 모델의 추론 결과가 정답셋과 최대한 유사하게 하는 것과 교차 엔트로피(Cross Entropy)를 최소화하는 것이 수학적으로 같다는 것을 확인하였다.

📖 Kullback Leibler Divergence

Cross Entropy Loss

머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수를 손실 함수(loss function)라고 한다. 모델의 확률 분포는 파라미터에 따라 달라지기 때문에 손실 함수 역시 파라미터에 의해 결정된다. likelihood 노드에서 잠깐 다루었던 최소제곱법의 함수도 손실 함수라고 할 수 있다. 데이터가 연속적인 값을 가지는 회귀(regression) 문제와는 다르게, 이산적인 값을 가지는 분류(classification) 문제에서는 모델의 출력 결과가 로지스틱 함수(logistic function)로 표현된다. 분류 클래스가 2개인 로지스틱 함수를 클래스가 $n$

앞에서 KL divergence를 최소화하는 것이 cross entropy를 최소화하는 것과 같다는 이야기를 했다. cross entropy 또한 손실 함수의 한 종류이다. cross entropy의 식을 다시 살펴보자.

분류 문제에서 데이터의 라벨은 one-hot encoding을 통해 표현된다. 클래스의 종류가 $N$

\text{softmax(input)} = \begin{pmatrix} 0.2 \\ 0.7 \\ 0.1 \\ \end{pmatrix}

이 결과는 곧 다음 식을 나타낸다.

Q(X=c_1)=0.2\\ Q(X=c_2)=0.7\\ Q(X=c_3)=0.1

데이터가 실제로 2번 클래스에 속할 경우, 데이터의 실제 확률 분포는 one-hot encoding과 같은 [0,1,0]이다. 데이터가 2번 클래스에 포함된다는 사실이 이미 확실하게 알려졌기 때문에 확률 분포가 이와 같이 계산되는 것이다.

P(X=c_1)=0\\ P(X=c_2)=1\\ P(X=c_3)=0

cross entropy를 사용하면 $P(x)$

H(P,Q)=−∑P(x) \log Q(x)\\ =−(0⋅ \log 0.2+1⋅\log 0.7 + 0⋅\log 0.1)\\ =−\log 0.7≈0.357

분류 문제에서는 데이터의 확률 분포가 위와 같이 one-hot vector로 표현되기 때문에, $P(x)$

우선 아래 코드를 실행해 $Q(x)$

import numpy as np
import random

# generate random output
#-----------------#
# can be modified
class_num = 4
#-----------------#
q_vector = []
total = 1

for i in range(class_num-1):
    q = random.uniform(0,total)
    q_vector.append(round(q,3))
    total = total - q

q_vector.append(total)
softmax_output = np.array(q_vector)

print(softmax_output)

# 실행결과
[0.373      0.611      0.013      0.00349507]

이제 $P(x)$

#-----------------#
# can be modified
class_index = 1
#-----------------#

p_vector = np.zeros(class_num)
p_vector[class_index-1] = 1

cross_entropy = -np.sum(np.multiply(p_vector, np.log(softmax_output)))

print('model prediction: '+str(softmax_output))
print('data label: '+str(p_vector))
print('cross entropy: '+str(round(cross_entropy,4)))

# 실행결과
model prediction: [0.373      0.611      0.013      0.00349507]
data label: [1. 0. 0. 0.]
cross entropy: 0.9862

Cross Entropy와 Likelihood의 관계

모델의 파라미터를 $\theta$

H ( P , Q ) = − ∑ P ( y | X ) \log Q ( y | X , θ ) = ∑ P ( y | X ) ( − \log Q ( y | X , θ ) )

$X$

📖 Decision Tree와 Entropy

딥러닝의 분류 모델 학습의 기초를 이루는 Cross Entropy 개념에 대해 지금까지 살펴보았다. 그 외에도 엔트로피 개념이 활발하게 쓰이는 분야를 하나만 더 짚어 보자면 의사결정나무(Decision Tree) 계열의 모델일 것이다.

의사결정나무를 설명하는 가장 간단한 데이터셋을 기준으로, 잠시 의사결정나무의 원리를 설명하겠다. 아래 그림은 날씨에 따른 운동경기 여부를 기록한 데이터이다. Day를 제외하고, 다음과 같은 4개의 데이터 컬럼이 있으며, Play(Yes/No) 컬럼이 라벨 역할을 하게 된다.

Outlook : 전반적 날씨 (Sunny(맑은), Overcast(구름 낀), Rainy(비 오는))
Temperature : 기온 정보(섭씨온도)
Humidity : 습도 정보 (수치형 변수(%), 범주형으로 변환된 경우 (high, normal))
Wind : 풍량 정보 (TRUE(바람 붊), FALSE(바람 안 붊))

의사결정 트리는 가지고 있는 데이터에서 어떤 기준으로 전체 데이터를 나눴을 때 나누기 전보다 엔트로피가 감소하는지를 따져서, 엔트로피가 감소하면 그만큼 모델 내부에 정보 이득(Information Gain) 을 얻었다고 보는 관점이다. 엔트로피 증가가 정보 손실량이라고 정의하는 것의 반대 관점이다.
S : 전체 사건의 집합
F : 분류 기준으로 고려되는 속성(feature)의 집합
$f \in F$
$S_f$
$|X|$
$e(X)$

위 수식 $IG(S, F)$

먼저 $e(S)$

그럼 엔트로피만 낮은 쪽으로 간다면 무조건 정교한 분류가 가능할까? 한번 의사결정나무 모델을 학습시켜 보고, 이를 시각화하는 과정을 통해 살펴보자.

위에서 예로 든 데이터셋은 실험하기에는 너무 작은 데이터셋이므로 다른 데이터셋을 준비해 보자. 캐글에서 제공하는 Pima Indians Diabetes Database을 사용한다.

import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import train_test_split 
from sklearn import metrics

import os
csv_path = os.getenv('HOME')+'/aiffel/information_theory/diabetes.csv'

col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
# load dataset
df = pd.read_csv(csv_path, header=0, names=col_names)
df.head()

# 데이터셋 준비
feature_cols = ['pregnant', 'insulin', 'bmi', 'age', 'glucose', 'bp', 'pedigree']
X = df[feature_cols] # Features
y = df.label # Target variable

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

print('슝=3')

# Decision Tree  모델 학습
# Create Decision Tree classifer object
clf = DecisionTreeClassifier()

# Train Decision Tree Classifer
clf = clf.fit(X_train,y_train)

#Predict the response for test dataset
y_pred = clf.predict(X_test)

print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

# 실행결과
Accuracy: 0.696969696969697

Decision Tree를 아무 제약조건 없이 학습시켜 나온 결과 정확도는 66% 정도 된다.
Decsion Tree의 장점은 어떻게 모델이 이런 결과를 내었는지 분류 기준을 따져보고 시각화를 통한 원인 추적이 가능하다는 점이다. 다음과 같이 방금 학습시킨 Decision Tree 모델을 시각화해 보자.

생성된 이미지 파일이 꽤 크기 때문에 저장된 이미지를 직접 열어 확인해도 좋다. diabetes1.png로 저장된다.

from sklearn.tree import export_graphviz
from six import StringIO  
from IPython.display import Image  
import pydotplus

dot_data = StringIO()
export_graphviz(clf, 
                out_file=dot_data,  
                filled=True, 
                rounded=True,
                special_characters=True, 
                feature_names=feature_cols, 
                class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
graph.write_png('diabetes1.png')
Image(graph.create_png(), retina=True)

여기서 사용한 정보의 총량은 얼마나 될요? 사용되지 않은 정보가 적을 수록 많은 정보를 사용한 것일 테니, 정보 이득이 되지 않은 Impurity를 측정해 보자.

# 정보 이득이 되지 않고 남은 Impurity  총량 측정
ccp_path1 = clf.cost_complexity_pruning_path(X_train,y_train)
ccp_path2 = clf.cost_complexity_pruning_path(X_test,y_test)
print(np.mean(ccp_path1.impurities))
print(np.mean(ccp_path2.impurities))

# 실행결과
0.15339926842881257
0.14633934707314158

위 두 가지 사실을 볼 때 우리가 학습시킨 Decision Tree 는 정보 이득을 최대화할 수 있는 지점까지 극한적으로 많은 분류 기준을 적용한 경우임을 알 수 있었다. 그런데 이것이 과연 타당할까?

비교 실험을 해 보자. 우리는 Decision Tree를 3depth 까지만 발전시켜 볼 것이다.

clf = DecisionTreeClassifier(criterion="entropy", max_depth=3)

# Train Decision Tree Classifer
clf = clf.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = clf.predict(X_test)

# Model Accuracy, how often is the classifier correct?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

# 실행결과
Accuracy: 0.7705627705627706

오히려 훨씬 Accuracy가 올라갔다. 이때의 트리구조 및 정보 이득이 되지 않은 남은 엔트로피(Impurity) 총량은 어떨까?

dot_data = StringIO()
export_graphviz(clf, 
                out_file=dot_data,  
                filled=True, 
                rounded=True,
                special_characters=True,
                feature_names = feature_cols,
                class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
graph.write_png('diabetes2.png')
Image(graph.create_png(), retina=True)

# 정보이득이 되지 않고 남은 Impurity  총량 측정
ccp_path1 = clf.cost_complexity_pruning_path(X_train,y_train)
ccp_path2 = clf.cost_complexity_pruning_path(X_test,y_test)
print(np.mean(ccp_path1.impurities))
print(np.mean(ccp_path2.impurities))

# 실행결과
0.7474881472739515
0.6878691771636323

분명 엔트로피 기준으로는 더욱 정보 이득을 얻을 수 있음에도 불구하고 분류 기준을 더 세우지 않는 것이 전체 모델의 정확도 향상에 낫다는 것을 알 수 있었다. 왜냐하면 Decision Tree 의 분류 기준은 임의로 정한 것이기 때문이다. 무한정 기준을 쪼개서 엔트로피를 떨어뜨릴 수 있지만, 그것은 Overfitting의 결과를 낳게 된다. 시각화된 결과를 통해 이를 확인해 보면 좋다.

하지만 다양한 분류 기준을 가진 Decision Tree 여러 개를 앙상블한 Random Forest 모델은 이러한 문제점을 극복하고 훌륭한 성능을 보일 수 있음도 우리는 알고 있다.

그렇다면 Decision Tree를 몇 depth까지 학습시키는 것이 가장 좋을까? 직접 실험해보자.

Author And Source

이 문제에 관하여(AIFFEL(220218)_정보이론 톺아보기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@mjk3136/AIFFEL220218정보이론-톺아보기

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

AIFFEL(220218)_﻿정보이론 톺아보기

NODE : 28. 정보이론 톺아보기

학습목표

📖 Information Content

📖 Entropy

📖 Kullback Leibler Divergence

📖 Kullback Leibler Divergence

📖 Decision Tree와 Entropy

Author And Source

좋은 웹페이지 즐겨찾기

AIFFEL(220218)_정보이론 톺아보기