淘先锋技术网
首页
1
2
3
4
5
6
7
关于sklearn中的决策树是否应该用one-hot编码?
sklearn中的决策树是CART,我们都知道它是基于基尼指数的二叉树。那么对于一个属性,仅仅会选择一个值对该属性划分成两部分。如果有一个离散特征的取值有1000个,比如商品的品牌,那么如果直接按顺序从0到999编号,是否会出问题?毕竟CART会从0-999中选一个编号进行划分,但是这些编号的顺序并没有意义,这个划分显然也不科学。此时是否应该用独热编码?