模型的容量:是指其拟合各种函数的能力。容量低的模型很难拟合训练集,容量高的模型容易过拟合。通过处理特征课改变模型容量,例如假设真实数据符合三次分布,那么用二次函数很难拟合(容量低),加入三次项后效果提高,若用九次项拟合(容量过高)会发生过拟合。
奥卡姆剃刀:在同样能够解释已知观测现象的假设中,我们应该挑选‘‘最简单’’ 的那一个。
VC维:是统计理论中一种量化模型容量的方法,定义为该分类器能够分类的训练样本的最大数目(能够打散的点的数目,参考:
https://www.zhihu.com/question/38607822)。
训练误差指的是在训练集上计算的误差。泛化误差也被称为测试误差。假设训练集和数据集中的数据都是独立同分布的,那么训练集误差的期望和测试集误差的期望是相同的。当然,当我们使用机器学习算法时,我们不会提前固定参数,然后采样得到两
个数据集。我们采样得到训练集,然后挑选参数去降低训练集误差,然后采样得到测
试集。在这个过程中,测试误差期望会大于或等于训练误差期望。以下是决定机器
学习算法效果是否好的因素:
1,降低训练误差
2,缩小训练误差和测试误差差距。