机器学习——打开集成方法的大门，手把手带你实现AdaBoost模型

2020-06-18 00:00:00 模型训练样本分类权重

今天是机器学习专题的第25篇文章，我们一起来聊聊AdaBoost。

我们目前为止已经学过了好几个模型，光决策树的生成算法就有三种。但是我们每次进行分类的时候，每次都是采用一个模型进行训练和预测。我们日常在做一个决策的时候，往往会咨询好几个人，综合采纳他们的意见。那么有没有可能把这个思路照搬到机器学习领域当中，创建多个模型来综合得出结果呢？

这当然是可以的，这样的思路就叫做集成方法（ensemble method）。

集成方法

集成方法本身并不是某种具体的方法或者是算法，只是一种训练机器学习模型的思路。它的含义只有一点，就是训练多个模型，然后将它们的结果汇聚在一起。

根据这个思路，业内又衍生出了三种特定的方法，分别是Bagging、Boosting和Stacking。

Bagging

Bagging是bootstrap aggregating的缩写，我们从字面上很难理解它的含义。我们记住这个名字即可，在Bagging方法当中，我们会通过有放回随机采样的方式创建K个数据集。对于每一个数据集来说，可能有一些单个的样本重复出现，也可能有一些样本从没有出现过，但整体而言，每个样本出现的概率是相同的。

相关文章