something-about-决策树-熵

参考书籍：《统计学习方法》

参考网络资源：信息增益比details/82317369

熵的意义

书中P60描述，熵是表示随机变量不确定性的度量。that’s right，经常看见什么：“宇宙是熵增的”这种句子，实际上是在说，宇宙的发展过程，是慢慢从有序的状态，发展至无序的状态。这里熵的定义，就不难理解了，一个随机变量越随机，它的熵就越大。聪明的Rudolf Clausius归纳了这样一个表达式（将可见的现象，用抽象的数学公式表达出来，厉害）

关于这个表达式，承认就是了，书上P60给了一个很直观的例子，即随机变量X只有两个取值，每个取值的概率都是1/2的情况。很好理解

关于H(X)这个符号的解释

H(X)，X是一个随机变量，我们可以看作是一个集合。由于H(X)表示该集合的混乱程度，换句话说即从某种意义上表示了X的分布，所以可以用H(p)来表示。

关于条件熵表达式H(Y|X)的解释。

集合Y中的元素有很多个特征，每个特征的取值决定了集合中个体的类别。H(Y|X)就表示，我们在已经知道特征X的取值情况以后，集合Y的混乱程度。数学表达式为

解释：这个p_i即p(x=x_i)，如上所示，整个表达式表达的意思是，我们已经知道了X特征的分布情况下Y的混乱程度。

信息增益

信息增益就很简单啦，集合D的个体，有很多个特征，特征A对训练数据D的信息增益即：“集合D原来的熵、减去已知A的分布后集合D的熵”

信息增益比

决策树对应有几个经典的算法，区别就是他们采用的计算“信息增益”的方式不一样，c4.5采用的就是信息增益比的方式。

这里我们要承认一点：信息增益的方法，存在偏向于选择取值较多的特征的问题。如上文的例子中，如果以日期作为候选特征，那么它的信息增益很大（一想就通嘛，每天一个日期，就分出来了一个分支，分支下只有一个样本，那肯定是有序的啊），但是很明显，这样划分并没有什么用。造成这个的原因就是： 日期这个特征，可选择的取值较多。

解决办法：增加一个惩罚项。通常来说，增加一个惩罚项是用加法嘛，比如取值越多的特征，就给其信息增益减去一个数值。信息增益比这里用了除法。

惩罚原则：首先还是要保持要选择能够增益信息较大的特征，同时特征可选择的值越多，那么惩罚越大，把惩罚放到分母上，即分母越小。惩罚项是“A的内部信息(intrinsic information of an attribution)”，在我看来，这个惩罚项可以用D关于A的条件熵来替代吧，因为A的可取值选择越多、理应H(D|A)越小（即在A的帮助下D变得不再凌乱了）。或许只是H(D|A)计算麻烦才没有使用罢了。