spark mllib中如何实现随机森林算法
spark mllib中如何实现随机森林算法
spark mllib中实现随机森林算法的方法主要有两种,一种是基于Bagging的方法,另一种是基于随机森林的方法。
基于Bagging的方法主要是利用训练样本的子集来构建若干个决策树,然后利用这些决策树进行预测。这种方法的优点是能够有效的降低决策树的方差,从而得到更好的预测结果。缺点是计算量较大。
基于随机森林的方法主要是在训练样本的基础上,随机的选择一个特征子集来构建决策树。这种方法的优点是能够有效的降低决策树的方差,同时计算量也相对较小。缺点是对于连续值的特征比较难处理。
相关文章