参考书籍:《统计学习方法》
参考网络资源:信息增益比details/82317369
熵的意义
书中P60描述,熵是表示随机变量不确定性的度量。that’s right,经常看见什么:“宇宙是熵增的”这种句子,实际上是在说,宇宙的发展过程,是慢慢从有序的状态,发展至无序的状态。这里熵的定义,就不难理解了,一个随机变量越随机,它的熵就越大。聪明的Rudolf Clausius归纳了这样一个表达式(将可见的现象,用抽象的数学公式表达出来,厉害)
关于这个表达式,承认就是了,书上P60给了一个很直观的例子,即随机变量X只有两个取值,每个取值的概率都是1/2的情况。很好理解
关于H(X)这个符号的解释
H(X),X是一个随机变量,我们可以看作是一个集合。由于H(X)表示该集合的混乱程度,换句话说即从某种意义上表示了X的分布,所以可以用H(p)来表示。
关于条件熵表达式H(Y|X)的解释。
集合Y中的元素有很多个特征,每个特征的取值决定了集合中个体的类别。H(Y|X)就表示,我们在已经知道特征X的取值情况以后,集合Y的混乱程度。数学表达式为
解释:这个p_i即p(x=x_i),如上所示,整个表达式表达的意思是,我们已经知道了X特征的分布情况下Y的混乱程度。
信息增益
信息增益就很简单啦,集合D的个体,有很多个特征,特征A对训练数据D的信息增益即:“集合D原来的熵、减去已知A的分布后集合D的熵”
信息增益比
决策树对应有几个经典的算法,区别就是他们采用的计算“信息增益”的方式不一样,c4.5采用的就是信息增益比的方式。
这里我们要承认一点:信息增益的方法,存在偏向于选择取值较多的特征的问题。如上文的例子中,如果以日期作为候选特征,那么它的信息增益很大(一想就通嘛,每天一个日期,就分出来了一个分支,分支下只有一个样本,那肯定是有序的啊),但是很明显,这样划分并没有什么用。造成这个的原因就是: 日期这个特征,可选择的取值较多。
解决办法:增加一个惩罚项。通常来说,增加一个惩罚项是用加法嘛,比如取值越多的特征,就给其信息增益减去一个数值。信息增益比这里用了除法。
惩罚原则:首先还是要保持要选择能够增益信息较大的特征,同时特征可选择的值越多,那么惩罚越大,把惩罚放到分母上,即分母越小。惩罚项是“A的内部信息(intrinsic information of an attribution)”,在我看来,这个惩罚项可以用D关于A的条件熵来替代吧,因为A的可取值选择越多、理应H(D|A)越小(即在A的帮助下D变得不再凌乱了)。或许只是H(D|A)计算麻烦才没有使用罢了。