解决二分类问题的算法——AdaBoost算法

1.集成学习
集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(weakly learnable)分类器,通过集成学习,组合成一个强可学习(strongly learnable)分类器。所谓弱可学习,是指学习的正确率仅略优于随机猜测的多项式学习算法;强可学习指正确率较高的多项式学习算法。集成学习的泛化能力一般比单一的基分类器要好,这是因为大部分基分类器都分类错误的概率远低于单一基分类器的。
偏差与方差
“偏差-方差分解”(bias variance decomposition)是用来解释机器学习算法的泛化能力的一种重要工具。对于同一个算法,在不同训练集上学得结果可能不同。对于训练集,由于噪音,样本的真实类别为(在训练集中的类别为),则噪声为
学习算法的期望预测为
使用样本数相同的不同训练集所产生的方法
期望输入与真实类别的差别称为bias,则
为便于讨论,假定噪声的期望为0,即,通过多项式展开,可对算法的期望泛化误差进行分解(详细的推导参看[2]):
也就是说,误差可以分解为3个部分:bias、variance、noise。bias度量了算法本身的拟合能力,刻画模型的准确性;variance度量了数据扰动所造成的影响,刻画模型的稳定性。为了取得较好的泛化能力,则需要充分拟合数据(bias小),并受数据扰动的影响小(variance小)。但是,bias与variance往往是不可兼得的:
当训练不足时,拟合能力不够强,数据扰动不足以产生较大的影响,此时bias主导了泛化错误率;
随着训练加深时,拟合能力随之加强,数据扰动渐渐被学习到,variance主导了泛化错误率。
bagging与boosting
集成学习需要解决两个问题:
如何调整输入训练数据的概率分布及权值;
如何训练与组合基分类器。
从上述问题的角度出发,集成学习分为两类流派:bagging与boosting。bagging(bootstrapaggregating)对训练数据擦用自助采样(boostrap sampling),即有放回地采样数据;每一次的采样数据集训练出一个基分类器,经过mm次采样得到mm个基分类器,然后根据最大表决(majority vote)原则组合基分类器的分类结果。
boosting的思路则是采用重赋权(re-weighting)法迭代地训练基分类器,即对每一轮的训练数据样本赋予一个权重,并且每一轮样本的权值分布依赖上一轮的分类结果;基分类器之间采用序列式的线性加权方式进行组合。
从“偏差-方差分解”的角度看,bagging关注于降低variance,而boosting则是降低bias;boosting的基分类器是强相关的,并不能显著降低variance。bagging与boosting有分属于自己流派的两大杀器:random forests(rf)和gradient boosting decision tree(gbdt)。本文所要讲的adaboost属于boosting流派。
2.adaboost算法
adaboost是由freund与schapire [1] 提出来解决二分类问题
根据加型模型(additive model),第m轮的分类函数
其中,为基分类器的组合系数。adaboost采用前向分布(forward stagewise)这种贪心算法最小化损失函数(1),求解子模型的
其中,为的分类误差率。第m+1轮的训练数据集权值分布
其中,为规范化因子
则得到最终分类器
是的单调递减函数,特别地,当时,;当时,即基分类器不满足弱可学习的条件(比随机猜测好),则应该停止迭代。具体算法流程如下:
在算法第4步,学习过程有可能停止,导致学习不充分而泛化能力较差。因此,可采用“重采样”(re-sampling)避免训练过程过早停止;即抛弃当前不满足条件的基分类器,基于重新采样的数据训练分类器,从而获得学习“重启动”机会。
adaboost能够自适应(addaptive)地调整样本的权值分布,将分错的样本的权重设高、分对的样本的权重设低;所以被称为“adaptive boosting”。sklearn的adaboostclassifier实现了adaboost,默认的基分类器是能fit()带权值样本的decisiontreeclassifier。
老师木在微博上提出了关于adaboost的三个问题:
1,adaboost不易过拟合的神话。
2,adaboost人脸检测器好用的本质原因,
3,真的要求每个弱分类器准确率不低于50%。

中国的娃哈哈也开始进军智能界啦!
MEC将成为5G演进的重要技术
vivo计划在MWC上公开展示120W超快闪充和AR眼镜等智能终端产品
小米有品正式上架了一款圈厨mini电烤箱
横扫一切高价电话, 免费VBUZZER势如破竹
解决二分类问题的算法——AdaBoost算法
3D封装的芯片散热问题的解决新方法
针对骁龙888的技术细节和功能层面的解析
负氧离子检测仪的注意事项及保养说明详情
【服务器数据恢复】VMware虚拟化重装系统的数据恢复案例
变频器调试的基本方法和步骤
如何将RFID模块与Raspberry Pi集成在一起
苹果推出AppleCare+服务计划
直流伺服电机工作原理
这八个技术被评为2019年最失败技术
丰田发布全新一代Mirai的官图:氢燃料车型,配备3个储氢罐,续航里程可达650km
推动大功率双向移动电源普及,英集芯升降压新品IP5386问世
如何将传统的制造业与年轻的科技相结合
工业质检机器人能否全面取代人工目视检测
MATLAB 简化了控制系统的设计和分析