淘先锋技术网

首页 1 2 3 4 5 6 7
sklearn中的决策树是CART,我们都知道它是基于基尼指数的二叉树。那么对于一个属性,仅仅会选择一个值对该属性划分成两部分。如果有一个离散特征的取值有1000个,比如商品的品牌,那么如果直接按顺序从0到999编号,是否会出问题?毕竟CART会从0-999中选一个编号进行划分,但是这些编号的顺序并没有意义,这个划分显然也不科学。此时是否应该用独热编码?