信息论的一些基本概念

信息熵

其中$P$ 为$X$的概率质量函数,$E$为期望函数,而$I(x)$是$X$ 的信息量(又称自信息).

条件熵(Conditional Entropy)

特征$x$ 固定为$x_i$时:$H(c|x_i)$

特征$x$ 整体分布已知时:$H(x|X)$

信息增益(Information Gain)

基尼系数(基尼不纯度Gini impurity)

信息增益比率(Information Gain Ratio)与分裂信息(Split information)

边界熵(boundary entropy)

$w$是邻接于$w_1w_2\cdots w_k$ 的字符.

边界多样性(Accessor veriety,AV)

$RL_{av}$ 表示邻接于字符串$w_1w_2\cdots w_k$的不同字符个数.