Korbin
Korbin
发布于 2019-08-18 / 0 阅读
0
0

信息论的一些基本概念

信息论的一些基本概念

信息熵

H(X)=E[I(X)]=E[-ln(P(X))]

其中$ P $ 为$ X $的概率质量函数,$ E $为期望函数,而$ I(x) $是$ X $的信息量(又称自信息).

H(X)=\sum_iP(x_i)I(x_i)=-\sum_iP(x_i)\log_bP(x_i)
\begin{matrix}
b & S\cr
2 & bit\cr
e & nat\cr
10 & Hart
\end{matrix}

条件熵(Conditional Entropy)

特征$ x $ 固定为$ x_i $时:$ H(c|x_i) $

特征$ x$ 整体分布已知时:$ H(x|X) $

信息增益(Information Gain)

IG(X) = H(c)-H(c|X)

基尼系数(基尼不纯度Gini impurity)

Gini(D)=1-\sum_i^np_i^2
Gini(D|A)=\sum_i^n\frac {D_i}{D}

信息增益比率(Information Gain Ratio)与分裂信息(Split information)

GR(D|A)=\frac {IG(D|A)}{SI(D|A)}
SI(D|A)=-\sum_i^n\frac {N_i}{N}\log_2\frac{N_i}{N}

边界熵(boundary entropy)

BE(w_1w_2\cdots w_k) = -\sum_{w \in C}p(w\vert w_1w_2\cdots w_k)\log p(w\vert w_1w_2\cdots w_k)

$ w $是邻接于$ w_1w_2 \cdots w_k $ 的字符.

边界多样性(Accessor veriety,AV)

AV(w_1w_2\cdots w_k)=\log RL_{av}(w_1w_2\cdots w_k)

$ RL_{av} $ 表示邻接于字符串$ w_1w_2 \cdots w_k $的不同字符个数.


评论