sklearn机器学习库(一)sklearn中的决策树
sklearn中决策树的类都在”tree“这个模块之下。
tree.DecisionTreeClassifier | 分类树 |
---|---|
tree.DecisionTreeRegressor | 回归树 |
tree.export_graphviz | 将生成的决策树导出为DOT格式,画图专用 |
tree.export_text | 以文字形式输出树 |
tree.ExtraTreeClassifier | 高随机版本的分类树 |
tree.ExtraTreeRegressor | 高随机版本的回归树 |
1、DecisionTreeClassifier及其重要参数
1.1 重要参数
1.1.1 参数criterion
-
决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。
-
通常来说,不纯度越低,决策树对训练集的拟合越好。
-
不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的。
-
criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择:
-
输入”entropy“,使用信息熵(Entropy)
-
输入”gini“,使用基尼系数(Gini Impurity)
-
在实际使用中,信息熵和基尼系数的效果基本相同
。
信息熵的计算比基尼系数缓慢一些,因为基尼系数的计算不涉及对数。
因为信息熵对不纯度更加敏感,所以信息熵作为指标时,决策树的生长会更加“精细”,因此对于高维数据或者噪音很多的数据,信息熵很容易过拟合,基尼系数在这种情况下效果往往比较好。
当模型拟合程度不足的时候,即当模型在训练集和测试集上都表现不太好的时候,使用信息熵。当然,这些不是绝对的。
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_wine
import pandas as pd
# 红酒数据集
wine = load_wine()
print(wine.keys())
print(wine.data.shape)
print(wine.target)
print(wine.feature_names)
print(wine.target_names)
(178, 13)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
['class_0' 'class_1' 'class_2']
pd.concat(
# 在列上进行拼接
[pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1
)
# 划分训练集和测试集
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target,test_size=0.3)
print(Xtrain.shape)
print(Xtest.shape)
(124, 13)
(54, 13)
# 模型创建与训练
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) # 返回预测的准确度
print(score)
import graphviz
# 画出决策树
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
dot = tree.export_graphviz(
decision_tree=clf,
out_file=None,
feature_names=feature_name,
class_names=["琴酒","雪莉","贝尔摩德"],
filled=True, # 填充颜色
rounded=True # 钝化角
)
graph = graphviz.Source(dot)
graph
# 特征重要性
sorted([*zip(feature_name,clf.feature_importances_)],key=lambda x:x[1],reverse=True)
[('od280/od315稀释葡萄酒', 0.4258755013151412),
('脯氨酸', 0.34593013978074255),
('酒精', 0.08094994077047969),
('颜色强度', 0.07600214535710607),
('色调', 0.03483435693073402),
('苹果酸', 0.02210497552631582),
('花青素', 0.014302940319480591),
('灰', 0.0),
('灰的碱性', 0.0),
('镁', 0.0),
('总酚', 0.0),
('类黄酮', 0.0),
('非黄烷类酚类', 0.0)]
总结如下:
-
通常就使用基尼系数
-
数据维度很大,噪音很大时使用基尼系数
-
维度低,数据比较清晰的时候,信息熵和基尼系数没区别
-
当决策树的拟合程度不够的时候,使用信息熵
-
总之,两个都试试,不好就换另外一个
决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的节点能够保证最优的树吗?
集成算法被用来解决这个问题:既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。
怎样从一组数据集中建不同的树?在每次分枝时,不从使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了。
1.1.2 random_state & splitter
-
random_state随机模式参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。
-
splitter也是用来控制决策树中的随机选项的,有两种输入值
- 输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝
- 输入“random",决策树在分枝时会更加随机,树会因为含有
更多的不必要信息
而更深更大。这也是防止过拟合的一种方式。当然,我们经常会使用剪枝参数来防止过拟合。
clf = tree.DecisionTreeClassifier(
criterion='entropy',
random_state=30,
splitter='random'
)
clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) # 返回预测的准确度
print(score)
1.1.3 剪枝参数
决策树往往会过拟合,它会在训练集上表现很好,在测试集上却表现糟糕。 我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。
剪枝策略对决策树的影响巨大,正确的剪枝策略是优化决策树算法的核心。
sklearn为我们提供了不同的剪枝策略:
1.1.3.1 max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉,这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。
决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。
在集成算法中也非常实用。
实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度
。
1.1.3.2 min_samples_leaf & min_samples_split
min_samples_leaf,限定一个节点在分枝后的每个子节点
都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生 。
-
一般搭配max_depth使用,可以让模型变得更加平滑。
-
这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。
-
一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。
-
同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。
-
对于类别不多的分类问题,=1通常就是最佳选择。
min_samples_split,限定一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
clf = tree.DecisionTreeClassifier(criterion="entropy"
,random_state=30
,splitter="random"
,max_depth=3
,min_samples_leaf=10
,min_samples_split=10
)
clf = clf.fit(Xtrain, Ytrain)
dot_data = tree.export_graphviz(clf
,feature_names= feature_name
,class_names=["琴酒","雪莉","贝尔摩德"]
,filled=True
,rounded=True
)
graph = graphviz.Source(dot_data)
graph
print(clf.score(Xtrain,Ytrain))
print(clf.score(Xtest,Ytest))
0.8951612903225806
0.8888888888888888
1.1.3.3 max_features & min_impurity_decrease
max_features
限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。
max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。
min_impurity_decrease
限制信息增益的大小,信息增益小于设定数值的分枝不会发生。
1.1.3.4 确认最优的剪枝参数
超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲线,它是用来衡量不同超参数取值下模型的表现的线。 我们可以通过学习曲线,来确定最优的剪枝参数。
import matplotlib.pyplot as plt
test = []
for i in range(10):
clf = tree.DecisionTreeClassifier(
max_depth= i + 1,
criterion='entropy',
random_state=30,
splitter='random'
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
test.append(score)
plt.plot(range(1,11), test,color='green', label='max_depth')
plt.legend()
plt.show()
这么多参数,需要一个个画学习曲线吗?我们在下面案例中,使用网格搜索来进行多个参数的调参。
剪枝参数的默认值会让树无尽地生长,这些树在某些数据集上可能非常巨大,对内存的消耗也非常巨大。所以如果你手中的数据集非常巨大,你已经预测到无论如何你都是要剪枝的,那提前设定这些参数来控制树的复杂性和大小会比较好。
1.1.3.5 class_weight & min_weight_fraction_leaf
样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例。比如说,在银行要判断“一个办了信用卡的人是否会违约”,是vs否(1%:99%)的比例。这种分类状况下,即便模型什么也不做,全把结果预测成“否”,正确率也能有99%。
因此我们要使用class_weight参数对样本标签进行一定的均衡,给少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None,此模式表示自动给与数据集中的所有标签相同的权重。
有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配min_weight_fraction_leaf这个基于权重的剪枝参数来使用。
1.2 重要的属性和接口
决策树来说,最重要的属性是feature_importances_,能够查看各个特征对模型的重要性。
sklearn中许多算法的接口都是相似的,比如说我们之前已经用到的fit和score,几乎对每个算法都可以使用。
除了这两个接口之外,决策树最常用的接口还有apply和predict。apply中输入测试集返回每个测试样本所在的叶子节点的索引,predict输入测试集返回每个测试样本的标签。
#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)
#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)
所有接口中要求输入X_train和X_test的部分,输入的特征矩阵必须至少是一个二维矩阵
。sklearn不接受任何一维矩阵作为特征矩阵被输入。
2、DecisionTreeRegressor及其重要参数
DecisionTreeRegressor几乎所有参数,属性及接口都和分类树一模一样。
需要注意的是,在回归树中,没有标签分布是否均衡的问题,因此没有class_weight这样的参数 。
2.1 criterion
回归树衡量分枝质量的指标,支持的标准有三种:
-
输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。
-
输入“friedman_mse”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
-
输入"mae"使用绝对平均误差MAE(mean absolute error)
属性中最重要的依然是feature_importances_,接口依然是apply, fit, predict, score最核心 。
回归树中,MSE不只是我们的分枝质量衡量指标,也是我们最常用的衡量回归树回归质量的指标
。
当我们在使用交叉验证,或者其他方式获取回归树的结果时,我们往往选择均方误差作为我们的评估(在分类树中这个指标是score代表的预测准确率)。在回归中,我们追求的是,MSE越小越好。
回归树的接口score返回的是R平方,并不是MSE
。 R平方可以为正为负(如果模型的残差平方和远远大于模型的总平方和,模型非常糟糕,R平方就会为负),而均方误差永远为正。
其中: u是残差平方和(MSE * N),v是总平方和,N是样本数量,i是每一个数据样本,fi是模型回归出的数值,yi是样本点i实际的数值标签。y帽是真实数值标签的平均数。
注意:
虽然均方误差永远为正,但是sklearn当中使用均方误差作为评判标准时,却是计算负均方误差(neg_mean_squared_error)
。
这是因为sklearn在计算模型评估指标的时候,会考虑指标本身的性质,均方误差本身是一种误差,所以被sklearn划分为模型的一种损失(loss),因此在sklearn当中,都以负数表示。
真正的均方误差MSE的数值,其实就是neg_mean_squared_error去掉负号的数字。
import pandas as pd
from sklearn import tree
from sklearn.model_selection import cross_val_score
# 1、读取波士顿数据集,注意:新版本的sklearn中自带的已经删除
data = pd.read_csv("boston_housing.data", sep='\s+', header=None)
x = data.iloc[:, :-1]
y = data.iloc[:, -1]
# 2、交叉验证
regressor = tree.DecisionTreeRegressor(random_state=420)
cross_val_score(
regressor,
x,
y,
cv=10, # 10折交叉验证
scoring='neg_mean_squared_error' # 负均方误差
).mean()
交叉验证是用来观察模型的稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果,因此用交叉验证n次的结果求出的平均值,是对模型效果的一个更好的度量。
2.2 一维回归的图像绘制小案例
我们用回归树来拟合正弦曲线,并添加一些噪声来观察回归树的表现。
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
'''
我们的基本思路是,先创建一组随机的,分布在0~5上的横坐标轴的取值(x),然后将这一组值放到sin函
数中去生成纵坐标的值(y),接着再到y上去添加噪声。
'''
rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80,1), axis=0)
y = np.sin(X).ravel() # ravel()降维
y[::5] += 3 * (0.5 - rng.rand(16)) # 每隔5个,添加一个噪声数据
# 训练模型
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(X, y)
regr_2.fit(X, y)
# 测试数据
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis] # np.newaxis 升纬
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)
# 画图展示
plt.figure()
plt.figure(figsize=(8,6))
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()
回归树学习了近似正弦曲线的局部线性回归。
我们可以看到,如果树的最大深度(由max_depth参数控制)设置得太高,则决策树学习得太精细,它从训练数据中学了很多细节,包括噪声得呈现,从而使模型偏离真实的正弦曲线,形成过拟合。
3、实例:泰坦尼克号幸存者的预测
3.1 数据预处理和特征工程
import pandas as pd
from sklearn.model_selection import cross_val_score,train_test_split,GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from matplotlib import pyplot as plt
data = pd.read_csv(r'data.csv')
data.head()
# 数据预处理
# 删除缺失值过多的列、以及和y没有关系的列
data.drop(['Cabin','Name','Ticket'], inplace=True,axis=1)
# 填充缺失值
# 缺失值较少的填充均值
data['Age'] = data['Age'].fillna(data['Age'].mean())
# 缺失值较多的,直接删除
data = data.dropna()
# 将分类变量转换为数值变量
# 性别是2分类变量
print(data['Sex'].unique().tolist())
# 性别转换为 male = 1 female = 0
data['Sex'] = (data['Sex'] == 'male').astype(int)
# Embarked是3分类变量
print(data['Embarked'].unique().tolist())
# 直接转换为list的下标
labels = data['Embarked'].unique().tolist()
data['Embarked'] = data['Embarked'].apply(lambda x: labels.index(x))
3.2 模型训练
# 划分训练集和测试集
X = data.iloc[:, 2:]
y = data.iloc[:, 1]
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, y, test_size=0.3)
# 导入模型,粗略跑一下,查看结果
clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
score_ = clf.score(Xtest, Ytest)
print(score_)
# 通过学习曲线,观察在不同深度下模型拟合的状况
train_score = []
test_score = []
for i in range(10):
clf = DecisionTreeClassifier(random_state=25, max_depth=(i + 1),criterion='entropy')
clf = clf.fit(Xtrain, Ytrain)
score_train = clf.score(Xtest, Ytest)
# 使用全量的数据集求取交叉验证的均值
score_test = cross_val_score(clf, X, y, cv=10).mean()
train_score.append(score_train)
test_score.append(score_test)
# 打印最大的测试分数,以及所在的索引
print(max(test_score),test_score.index(max(test_score)))
# 画图
plt.plot(range(1,11),train_score,color='orange',label='train')
plt.plot(range(1,11),test_score,color='green',label='test')
plt.xticks(range(1,11))
plt.legend()
plt.show()
# 使用网格搜搜调整多个参数
import numpy as np
gini_thresholds = np.linspace(0,0.5,20)
parameters = {'splitter':('best','random')
,'criterion':("gini","entropy")
,"max_depth":[*range(1,10)]
,'min_samples_leaf':[*range(1,50,5)]
,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
}
clf = DecisionTreeClassifier(random_state=25)
gs = GridSearchCV(clf,parameters, cv=10)
gs.fit(Xtrain, Ytrain)
print(gs.best_params_)
print(gs.best_score_)
{'criterion': 'entropy', 'max_depth': 4, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 11, 'splitter': 'random'}
0.8087301587301587