资源预览内容
第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
亲,该文档总共7页全部预览完了,如果喜欢就下载吧!
资源描述
基于SVM的半监督迁移学习的算法研究摘 要 在数据挖掘中,合理的采用相关数据域去帮助新的数据域分类已经成了一项重要课题。半监督学习已经广泛应用于数据挖掘、机器学习的分类等研究中,但结合迁移学习方式的方法却较少见。SVM在处理大数据方面也越受到关注,不同学习方式结合SVM的算法也陆续提出。本文结合半监督SVM(Semi-supervised SVM)算法与迁移学习的方法,给出了一种半监督迁移SVM分类方法,通过对辅助数据域的局部与目标域的全局一致学习(LLGC)得到目标方程,并以半监督的方式对目标方程进行迭代,收敛得到最终的SVM分类器,对目标任务中未标记样本得到最终标签。应用该方法得到分类器具有较高的精确度。关键词 数据挖掘;半监督学习;迁移学习;一致学习 村民建房委员会应建立村级农房建设质量安全监督制度和巡查制度,选聘有责任心和具有一定施工技术常识的村民作为义务巡查监督员,开展经常性的巡查和督查。1 引言在传统分类方法中,大部分都是有监督的,即用带标签的数据来训练分类模型,并且只局限于目标数据域。然而,收集带标签的实例是非常困难且要耗费巨大的1,不带标签的数据却是相当巨大,很容易获取。如果只有少量的带标签的数据和大量未标记的数据可用,那么半监督学习在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区。很多机器学习的方法,无论是传统的机器学习还是半监督学习问题,都是建立在一个共同假设:测试数据与训练数据属于统一数据分布与同一特征空间。一旦数据分布有差异,很多学习方法便无法表现的很好。于是又要重新标记大量数据去训练模型来适应新的数据分布,这样的代价是昂贵的。基于这个局限,便引入了迁移学习3,目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务。例如,在网页分类中,我们能利用迁移学习从大学网页迁移知识来帮助Facebook.com分类任务训练一个分类器4。虽然大学网页与社交网络的数据分布十分不同,但是始终存在一些共同的分类知识来构建知识迁移的桥梁帮助提高分类器性能。近年来,随着研究的深入,半监督、迁移学习等方法也逐渐应用于数据分类、社交网络分析和图像处理等方面。如Qiang Yang等人迁移学习对于文本挖掘的应用5。目前,在解决实际的文本分类问题中,人们提出了不同类型文本分类方法,很多针对文本像基于贝叶斯的文本分类方法6、基于SVM的文本分类方法78以及基于KNN的文本分类方法9等。随后基于这些基本方法的迁移学习也成为了当今热点,如跨域SVM方法1011。而迁移学习在各领域的应用也是层出不穷,如在社交网络的推荐系统中便提出了跨域推荐(CDR)20和社交网络中的异构迁移对于图像聚类的方法21,在图像处理和信号处理方面也有应用222324。在这篇文章,我们提出了一种基于SVM的半监督迁移学习方法,我们的贡献有:(1)我们合理的利用了目标域中未标记的数据与少量带标签的数据,并采用局部化SVM(LSVM)进行局部和全局一致学习(LLGC),采用半监督的学习方式来加强分类器精度1218。并给出了这种方法的目标方程;(2)为了给分类器得到更好的泛化误差,我们引入了迁移学习的方法对目标方程进行迭代,给出了迭代终止目标函数,产生更为精确的分类器并得到数据标签13。本文的组织结构如下。在第二节,我们将简要介绍一下基于SVM的半监督学习和基于SVM的迁移学习方法(TLSVM)。在第三节,我们提出基于SVM的半监督迁移学习方法。实验部分的内容则在第四节。最后,第五节是我们对以后工作的总结。2 相关工作 由于我们关注的是基于SVM的半监督迁移学习方法,所以我们回顾一下基于SVM的半监督学习与迁移学习等方法。2.1半监督学习近年来,半监督学习受到越来越广泛的关注。所谓半监督学习就是利用目标域中未带标签的数据与带标签的训练数据集一同训练分类器。这在某种程度上克服了传统机器学习中因为带标签训练数据集不足而导致分类器不准确的问题。各式各样的半监督方法也被陆续的提出。例如,Wajeed9提出基于KNN的半监督文本分类方法,这种半监督方法使用了不同的相似度测量与不同向量产生技术来提高分类的准确度。但是由于文本数据的维度高,这种方法的计算量相当大。而V. Vapnik13提出的自训练半监督SVM算法,很好的利用了大量未标记数据结合少量带标签数据共同训练分类器。然后通过不断的迭代直到未标记数据标签收敛。这种方法计算量相对较小,但是准确度相对较低。接着Yong Ma13在V. Vapnik13的自训练半监督SVM算法上提出了一种改进的方法,这个方法将类别之间的差异性用一个散度矩阵表示出现,然后优化了目标方程。以上只是例举了分别以两种不同的算法作为基础来实现半监督学习,虽然基于KNN的相似度测量可能会精度更高,但是计算量大,实现起来难度大,然而基于SVM的计算量小。但是,如果我们考虑不同标签之间的相关性,虽然能提高分类器输出的准确性,但方法的实现难度以及获得相关性的耗费远远加大。例如,这篇文章提出的方法是自训练半监督SVM算法结合有效的跨域迁移SVM方法,使我们对数据的分类有了更高效率和准确率。虽然我们考虑了目标域中未标记的大量数据,但是带标签的少量数据仍可能无法满足训练高质量分类器的要求。因此有必要在半监督学习分类的基础上加入迁移学习方法。2.2 迁移学习近几年,迁移学习越来越受到数据挖掘、机器学习等相关领域的关注,已经成为当今的一个研究热点,并取得了相关方面的成就。迁移学习就是利用一个新环境中学习的相关知识去指导当前环境目标任务的学习,而在数据挖掘中,我们定义新环境为辅助域,当前环境为目标域。现阶段的迁移学习工作方式分为三个主要部分:同构空间下基于实例的迁移学习,同构空间下基于特征的迁移学习和异构空间下的迁移学习。根据以上提出的不同的迁移方式,不同的迁移学习方法也已经被陆续提出来。例如,Feng Yu17提出的文本分类的迁移学习,这个方法利用了迁移知识采样源数据域数据构建了迁移知识库,进而帮助目标数据进行分类。C.Do17针对文本分类问题提出了一种通过Softmax Regression学习一个参数函数来分类新的任务,而Qiang yang在社交网络分析中提出了一种异构迁移学习的图像聚类方法,旨在通过社交网络中不相关的带注释的图片迁移知识来提高目标图片搜寻的精度21。尽管对迁移学习在文本分类、社交网络等领域的研究已经比较深入,但是在迁移知识过程中,不同的方法往往效果差别很大,不能很好的提高分类器效果,现阶段的迁移方式用的比较好的还是基于同构空间下迁移。在这篇文章中,我们引入了一种基于邻域的SVM方法来对源数据进行迁移,以便使与目标域带标签数据分布相近的数据更大程度的帮助提高分类器性能。我们选择半监督学习方法,局部和全局一致性方法(LLGC)18,并给出了目标方程。这种半监督的学习方法所获得的方程能很好的结合邻域SVM方法,从而解决迁移学习方法运用于文本分类的问题。2.3 基于SVM的迁移学习方法 首先,定义一个辅助数据集,再定义一个目标数据集,(其中带标签的数据集为,不带标签的为)。迁移学习就是利用辅助数据集帮助目标数据集学习一个可以分类未带标签数据集的分类器。 由于辅助数据集可能很大,直接的将辅助域的数据与目标域训练集共同训练分类器,可能会由于部分对目标任务作用不大的数据迁移而导致产生负迁移,影响分类性能。因此我们提出定义了一个数据集指代决定决策边界的支持向量,并且是已经从辅助数据域学习到的判别函数。学习得到的支持向量能代表决策函数的全部信息;如果我们能正确分类这些支持向量,我们就能正确分类辅助数据域剩下的数据除了少部分错分类训练样本。于是通过辅助数据域支持向量与目标域数据集就能分类未知数据集。其方法的原理如图2所示:源域训练集目标域少量带标签训练集基于源域数据知识与目标域少量带标签样本的优化学习 目标域迁移学习 SVM分类器对源域预处理 图2 基于SVM的迁移学习3 基于SVM的半监督迁移学习方法在这一节中,我们结合以前提出的半监督SVM分类方法与迁移SVM方法,我们提出了一种结合半监督与迁移学习的半监督迁移学习的方法。我们仍然以SVM为基础,结合半监督SVM算法和跨域SVM算法,就形成了我们提出的基于SVM的半监督迁移学习的方法。其原理图如图2所示:辅助数据集() 目标数据集() 训练数据(带标签) 目标数据集() 测试数据(未标记)SVM分类器 图2基于SVM的半监督迁移学习 3.1 半监督迁移算法的构思首先,定义辅助数据集用表示,目标数据集用表示,。目标数据集中带标签的数据集为,包含个样本数据,不带标签的为,包含个样本。对于辅助数据域,我们在数据预处理阶段用指代决定决策边界的支持向量,并且学习到辅助数据域判别函数。一个基本的跨域迁移SVM分类器对于两类问题定义如下: (2)s.t. 其中,是一个训练实例的特征向量,是其通过一个核函数映射到高维空间,是的标签,是一个正规常数。 类似于LSVM12,辅助数据集的知识迁移的影响能被目标域训练集所限制。这个限制的基本原理就是一个支持向量落入目标数据的近邻,它有一个类似于的分布并且能被用来帮助分类。指代辅助域中支持向量和带标签目标数据集之间的相似度测量。在迁移SVM的优化中,原来从中学习得到支持向量适应于新的训练数据,支持向量与新的训练数据结合一起学习一个新的分类器。特别地,让,则方程(2)可被改写如下: (3) s.t. 其中,是一个训练实例的特征向量,是其通过一个核函数映射到高维空间,是的标签,是一个正规常数。 方程(3)的对偶问题如下: (4)s.t. 类似A-SVM19,我们也想要保证这个新的决策边界在旧的辅助数据的判别属性,但是这个技术有个特别的优点:就是没有强迫这个正规项限制新决策边界相似于旧的。代替这个,基于本地化的主意,这个判别属性仅在与目标数据有相似分布的重要辅助数据样本中被处理。特别地,采用了高斯函数的形式: (5) 控制来自的重要支持向量的退化速度。越大,支持向量的影响就越小同时也就远离。当非常大,一个新的决策边界单独基于新的训练数据学习得到。相反,当非常小,来自的支持向量和目标数据集同等对待并且算法相当于运用共同训练一个SVM分类器。通过这样控制,与传统方法对比,这个算法更一般化和灵活。控制参数实际上能通过系统验证试验来优化。对于上面所产生的一个初始弱SVM分类器,我们得到了目标域中未标记数据的一组初始标签,接着把加入训练集中一起训练,就形成了我们所提出的半监督迁移的方法。其基于SVM的半监督迁移学习算法的分类器对于两类问题的定义如下: (6)s.t. 3.2 半监督迁移算法的描述 对于目标域数据,假设是包含个样本且给定标签的训练集,是包含个样本且未带标签。本文提出的基于SVM的半监督迁移算法的步骤如下:1) 利用目标域中少量带标签的数据集和辅助数据集中经过预处理得到一组支持向量作为原始训练集,训练出一个弱分类器SVM1。2) 利用SVM1标记目标数据域中未标记的数据,获得初始一组标签 。3) 将目标域中未标记数据集加入训练集中,共同训练出分类器SVM2,并得到其各参数和。此时的标签为。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号