个体学习器通常是用一个现有的学习无需存款注册秒送18元从训练数据产生,例如C4.5决策树无需存款注册秒送18元、BP神经网络无需存款注册秒送18元等。此时集成中只包含同种类型的个体学习器,例如“决策树集成”中的个体学习器全是决策树,“神经网络集成”中就全是神经网络,这样的集成是“同质”(homogeneous)的,同质集成中的个体学习器也称为“基学习器”(base learner),相应的学习无需存款注册秒送18元称为“基学习无需存款注册秒送18元”(base learning algorithm)。有同质就有异质(heterogeneous),若集成包含不同类型的个体学习器,例如同时包含决策树和神经网络,那么这时个体学习器一般不称为基学习器,而称作“组件学习器”(component leaner)或直接称为个体学习器。

11.png 个体学习器 Individual learner 人工智能无需存款注册秒送18元大全_AI无需存款注册秒送18元

这里的【学习器】就是指机器学习无需存款注册秒送18元训练得到的假设。而我们之所以有直觉要把多个学习器组合在一起,是因为单个学习器往往可能效果不那么好,而多个学习器可以互相帮助,各取所长,就可能一起合作把一个学习任务完成得比较漂亮。(后面我们将从数学上证明这一点)


个体学习器简介

第一种就是所有的个体学习器都是一个种类的,或者说是同质的。比如都是决策树个体学习器,或者都是神经网络个体学习器。第二种是所有的个体学习器不全是一个种类的,或者说是异质的。比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强学习器。

目前来说,同质个体学习器的应用是最广泛的,一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表无需存款注册秒送18元是boosting系列无需存款注册秒送18元,第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表无需存款注册秒送18元是bagging和随机森林(Random Forest)系列无需存款注册秒送18元。下面就分别对这两类无需存款注册秒送18元做一个概括总结。


个体学习器的多样性

无论是串行生成的个体学习器,还是同时生成的个体学习器,我们都希望我们所集成的个体学习器是“好而不同的”,“好而不同”的学习器就涉及到个体学习器的两个方面,个体学习器的“准确性”和“多样性”。而“准确性”和“多样性”之间是冲突的,也就是说准确性很高之后,要增加多样性就需要牺牲准确性。


误差一分歧分解


误差一分歧分解从理论的角度上分析了个体学习器“好而不同”,主要是数学推导分析,在实践中还不能应用。


这里的分歧表示个体学习器在样本x上的不一致性,从一定程度上反映了个体学习器的多样性。


对例子x,个体学习器hi的“分歧”:


A(41x)=(4(x)-H(x)2


集成的“分歧”:


A(21x)=-,w,A(41x)=二,8(4(x)-H(x))2


个体学习器的分歧和集成后的分歧反映的都是“多样性”这个方面。


下面来看个体学习器和集成后的准确性,这里用了平方误差。


E(41x)=(f(x)-8(x))2


E(H1x)=(f(x)-H(x))2


令互(内|利=二,的E(内|x)表示个体学习器误差的加权均值,有


(21x)=L,wE(41)-E(H1x)=8(k1x)-8(H1x)


这是对单个样本来说,那么对所有样本时,p(x)表示样本的概率密度,那么在所有的样本上有


之4J4(41x)p(x)dx=24J8(410p(x)dx-Js(41x)p(x)dx


个体学习器hi在全样本上的泛化误差和分歧项分别为net/qq 27717921


8=J841x0p(x)dx


4=JA041)p(x)dx


集成的泛化误差为


E=J8(H1x)p(x)dx则在全样本上有E=互-A


这个式子就称作为“误差分歧分解”,我们的目的是让个体学习器的准确性高且多样性大实现“多而不同”,


那么我们只要优化E=-A,准确性越高,多样性多大,则“误差分歧分解”式越小。但是问题在现实任务中很


难直接对g=g-A进行优化,上面的推导过程只适用于回归学习,不能直接推广到分类学习任务中。


多样性度量


我们应该如何度量集成中个体分类器的多样性呢?一般是两两的考虑个体分类器的相似性或者是不相似性。下


面是h,和h,在二元分类时的分类情况


|hi=+l h;=-1


|hy=+1|ac


|hs=-1|bd


*不合度量(disagreement measure)


ds,=与+c


=


Dist,值域为[0,1],值越大多样性越大