决策树
从根节点到叶节点表示为合取式(由判断条件得出结果)
利用合取式和析取式获得某个类别的明确描述(由结果推断判断条件)
决策树是一个逐步查询的过程。->分类模型,针对同一数据集,决策树不唯一。
经典决策树算法ID3、C4.5。
二值分割:考虑所有的分割,从中选取最好的。
贪心算法:选择分割后具有同类和属性的节点。
决策树学习算法:CART(分类回归树)、随机森林
split=test=query
基本思想:使后继节点的数据尽可能纯
不纯度(impurity)越小越好。常用的测量:熵不纯度、方差不纯度、Gini不纯度、误分类不纯度
最后剪枝。