数据挖掘学习之决策树算法PART2

1. CART决策树算法划分选择

　　ID3算法使用信息增益来选择特征；C4.5算法中，采用信息增益比选择特征来减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的，这里面会涉及大量的对数运算。运算量大，且不能用于回归，能不能优化为二分类问题呢？CART算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。

具体的，在分类问题中，假设有K个类别，第k个类别的概率为

k , 则基尼系数的表达式为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

　　　　如果是二类分类问题，计算就更加简单了，如果属于第一个样本输出的概率是p，则基尼系数的表达式为：

G i n i (p) = 2 p (1 - p)

　　　　对于个给定的样本D,假设有K个类别, 第k个类别的数量为

G i n i (D) = 1 - \sum k = 1 K (| C k | | D | ) 2

　　　　特别的，对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：

G i n i (D, A) = | D 1 | | D | G i n i ( D 1 ) + | D 2 | | D | G i n i ( D 2 )

2. CART算法对连续特征和离散特征处理

　　　　对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益，则CART分类树使用的是基尼系数。

　　　具体的思路如下，比如m个样本的连续特征A有m个，从小到大排列为

　　对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。CART分类树会考虑把A分成

3. CART分类树建立算法的具体流程

　　　　上面介绍了CART算法的一些和C4.5不同之处，下面我们看看CART分类树建立算法的具体流程，之所以加上了建立，是因为CART树算法还有独立的剪枝算法这一块，这块我们在第5节讲。

　　　　算法输入是训练集D，基尼系数的阈值，样本个数阈值。

　　　　输出是决策树T。

　　　　我们的算法从根节点开始，用训练集递归的建立CART树。

　　　　1) 对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。

　　　　2) 计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。

　　　　3) 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数，对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和上篇的C4.5算法里描述的相同。

　　　　4) 在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2.

　　　　5) 对左右的子节点递归的调用1-4步，生成决策树。

　　　　对于生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

4. CART回归树建立算法

　　　　CART回归树和CART分类树的建立算法大部分是类似的，所以这里我们只讨论CART回归树和CART分类树的建立算法不同的地方。

　　　　首先，我们要明白，什么是回归树，什么是分类树。两者的区别在于样本输出，如果样本输出是离散值，那么这是一颗分类树。如果果样本输出是连续值，那么那么这是一颗回归树。

　　　　除了概念的不同，CART回归树和CART分类树的建立和预测的区别主要有下面两点：

　　　　1)连续值的处理方法不同

　　　　2)决策树建立后做预测的方式不同。

　　　　对于连续值的处理，我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型，但是对于回归模型，我们使用了常见的均方差的度量方式，CART回归树的度量目标是，对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为：

m i n      A, s [m i n      c 1 \sum x i \in D 1 (A, s) (y i - c 1) 2 + m i n 

　　　　其中，

　　　　对于决策树建立后做预测的方式，上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

　　　　除了上面提到了以外，CART回归树和CART分类树的建立算法和预测没有什么区别。

5. CART树算法的剪枝

　　　　CART回归树和CART分类树的剪枝策略除了在度量损失的时候一个使用均方差，一个使用基尼系数，算法基本完全一样，这里我们一起来讲。

　　　　由于决策时算法很容易对训练集过拟合，而导致泛化能力差，为了解决这个问题，我们需要对CART树进行剪枝，即类似于线性回归的正则化，来增加决策树的返回能力。但是，有很多的剪枝方法，我们应该这么选择呢？CART采用的办法是后剪枝法，即先生成决策树，然后产生所有可能的剪枝后的CART树，然后使用交叉验证来检验各种剪枝的效果，选择泛化能力最好的剪枝策略。

　　　　也就是说，CART树的剪枝算法可以概括为两步，第一步是从原始决策树生成各种剪枝效果的决策树，第二部是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的数作为最终的CART树。

　　　　首先我们看看剪枝的损失函数度量，在剪枝的过程中，对于任意的一刻子树T,其损失函数为：

C α (T t) = C (T t) + α | T t |

　　　　其中，

　　　　当

　　　　看过剪枝的损失函数度量后，我们再来看看剪枝的思路，对于位于节点t的任意一颗子树

C α (T t) = C (T t) + α | T t |

　　　　如果将其剪掉，仅仅保留根节点，则损失是

C α (T) = C (T) + α

　　　　当

C α (T t) = C α (T)

。当

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类，回归	二叉树	基尼系数，均方差	支持	支持	支持

淘先锋技术网