机器学习常识 7: 决策树

摘要: 决策树是一种与人类思维一致, 可解释的模型.

1. 决策树的结构

人类的很多知识以决策规则的形式存储:

将这些规则组建出一棵树的样子, 如图 1 所示.

人为可以构建决策树, 这就是专家知识, 但它不属于我们重点讨论的内容.
从数据中构建出决策树, 才是机器学习的内容.
决策树的构建过程, 实际上是一个不完全归纳 (特殊到一般) 的过程. 为学习到图 1 所示的决策树, 只用了 $14 14 个样本. 但这棵决策树所覆盖的可能情况, 远远超过了 14 14 . outlook 有 3 3 种情况, humidity 有 100 100 种情况, rain 有 2 2 种情况, windy 有 2 2 种情况, 所以总共是 3 × 100 × 2 × 2 = 1200 3 \times 100 \times 2 \times 2 = 1200$
决策树构建的原则是: 越小越好, 即节点数越少越好. 这是基于奥克姆剃刀 (Occam’s razor) 原理.

穷举法. 由于数据量比较大, 一般不使用这种方法.
启发式方法. 如基于信息熵、基于基尼指数. ID3 适用于枚举型数据, 使用了信息熵 (条件信息熵之差称为信息增益). 对于实数型数据, 则使用 C4.5. 在绝大多数情况下, ID3 可以获得最小的决策树. 但你也可以构造出反例. 在 2000 年前, 决策树火得一蹋糊涂.
剪枝. 如果一棵决策树使用一张 A4 纸都画不下, 就失去了泛化能力. 这时候需要剪枝. 例如, 在一个节点处, 有 100 个正样本和 1 个负样本, 虽然可以增加一个属性将它们分开, 但最好不要增加这个属性, 这样节点至少节约了一个.
常规的决策树, 其分割面都垂直于相应特征的坐标轴. 有时候想同时考虑多个属性组合而成 (温度 + 湿度) 的新属性, 可以使用 Oblique decision tree (斜决策树).

美好的周末又要来临，小数就不跟大家聊沉甸甸的代码了，让我们轻松一下换个话题。今天的主角是产品经理，程序员史蒂夫、安妮和乔伊友情客串，报幕员兼跑龙套就是可爱的小数啦，接下来精彩马上开始——

Java为了减小复杂性，类取消了多继承，只有单继承。很多同学都会使用继承，无非是使用关键字extends。但大家知道更深层的东西吗？比如在内存空间继承的类和被继承的类怎样存储，有什么关系？大家都知道如果被继承的类没有空构造器即只有有参构造器，那么继承类中构造器第一行必须调

<input type=“file”> 中的name 与id 属性与 addbanner(@RequestParam("file") MultipartFile file

有一个数组，其中的元素各自代表不同的东西。以对象替换数组，对于数组中每个元素，以一个字段来表示。动机：一个数组容纳了多种不同对象。可以运用字段名称和函数名称来传达这样的信息。做法：新建一个类表示数组所拥有的信息，

Py之pyttsx：pyttsx/pyttsx3的简介、安装、使用方法之详细攻略目录

如果在C#中使用TransactionScope类(分布式事务),则须注意如下事项: 1、在项目中引用using System.Transactions命名空间（先要在添加net组件的引用）; 3、对MSDTC组件设置: 步骤: 在控制面板-

Veture can't find 'tsconfig.json' or 'jsconfig.json' 在 VSCode 上使用 Vue 插件 Vetur 时，老是出现标题中的报错，每次都要手动关闭是不是很烦？其实这个报错弹框是可以通过设置关闭的。

研究了一下DoTween插件，简单记录一下学习心得。还有几个小Demo实现规定时间内完成进度条进度

（一）：CIFAR数据集:

注重版权，尊重他人劳动转帖注明原文地址：