信息论的一些基本概念
信息熵
H(X)=E[I(X)]=E[−ln(P(X))]
其中P 为X的概率质量函数,E为期望函数,而I(x)是X的信息量(又称自信息).
H(X)=i∑P(xi)I(xi)=−i∑P(xi)logbP(xi)
b2e10SbitnatHart
条件熵(Conditional Entropy)
特征x 固定为xi时:H(c∣xi)
特征x 整体分布已知时:H(x∣X)
信息增益(Information Gain)
IG(X)=H(c)−H(c∣X)
基尼系数(基尼不纯度Gini impurity)
Gini(D)=1−i∑npi2
Gini(D∣A)=i∑nDDi
信息增益比率(Information Gain Ratio)与分裂信息(Split information)
GR(D∣A)=SI(D∣A)IG(D∣A)
SI(D∣A)=−i∑nNNilog2NNi
边界熵(boundary entropy)
BE(w1w2⋯wk)=−w∈C∑p(w∣w1w2⋯wk)logp(w∣w1w2⋯wk)
w是邻接于w1w2⋯wk 的字符.
边界多样性(Accessor veriety,AV)
AV(w1w2⋯wk)=logRLav(w1w2⋯wk)
RLav 表示邻接于字符串w1w2⋯wk的不同字符个数.