机器学习——打开集成方法的大门,手把手带你实现AdaBoost模型
今天是机器学习专题的第25篇文章,我们一起来聊聊AdaBoost。
我们目前为止已经学过了好几个模型,光决策树的生成算法就有三种。但是我们每次进行分类的时候,每次都是采用一个模型进行训练和预测。我们日常在做一个决策的时候,往往会咨询好几个人,综合采纳他们的意见。那么有没有可能把这个思路照搬到机器学习领域当中,创建多个模型来综合得出结果呢?
这当然是可以的,这样的思路就叫做集成方法(ensemble method)。
集成方法
集成方法本身并不是某种具体的方法或者是算法,只是一种训练机器学习模型的思路。它的含义只有一点,就是训练多个模型,然后将它们的结果汇聚在一起。
根据这个思路,业内又衍生出了三种特定的方法,分别是Bagging、Boosting和Stacking。
Bagging
Bagging是bootstrap aggregating的缩写,我们从字面上很难理解它的含义。我们记住这个名字即可,在Bagging方法当中,我们会通过有放回随机采样的方式创建K个数据集。对于每一个数据集来说,可能有一些单个的样本重复出现,也可能有一些样本从没有出现过,但整体而言,每个样本出现的概率是相同的。
相关文章