资源预览内容
第1页 / 共30页
第2页 / 共30页
第3页 / 共30页
第4页 / 共30页
第5页 / 共30页
第6页 / 共30页
第7页 / 共30页
第8页 / 共30页
第9页 / 共30页
第10页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第九章 网络信息过滤与邮件过滤,9.1 研究背景和现状 9.2 关键技术研究 9.3 信息过滤实现和结构 9.4 垃圾邮件过滤实现和结构 9.5 主要工作总结,9.1 研究背景和现状,研究背景 网络跟人们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避免地接触到大量的不良信息。 过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络环境更加纯净、美好。 过滤掉用户不感兴趣的网页信息和垃圾邮件,可以节省用户的上网时间。,9.1 研究背景和现状,研究现状 当前信息过滤的研究以TREC会议为核心,主要是文本过滤 。 国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取、学习算法和过滤算法上。 出现了一些过滤软件,但存在较多问题,过滤效果不佳。,9.2 关键技术研究,现有网络过滤技术及其存在问题 网络过滤新技术研究,9.2 关键技术研究,现有网络过滤技术及其存在问题 断开物理连接 资源有限,更新速度慢,多半是过期的网页 地址库(URL)过滤 需要不断更新地址库 基于关键字的页面内容过滤。 易被伪装技术突破 过滤往往矫枉过正,9.2 关键技术研究,网络过滤新技术研究 针对内容进行过滤,9.2关键技术研究,关键技术 文本表示 特征选择 分类算法 模糊模式识别,9.2 关键技术研究,信息表示(文本表示 ) 信息过滤的主要工作是比较用户请求信息和要过滤的非法信息的匹配程度,为此,需要能够有效地表示信息空间,一般采用模型化的方法表示信息空间。 目前常用的文本表示模型有: 布尔逻辑模型 向量空间模型 概率推理模型 潜在语义索引模型,9.2 关键技术研究,布尔逻辑模型 一种相对简单的信息过滤模型。在过滤时,它以文档中是否包含特征项来作为取舍的标准。 特点是实现容易、操作方便 结果非真即假,限制性过强,9.2 关键技术研究,向量空间模型 以特征项作为文本表示的基本单位,特征项构成特征项集,将文档表示为向量。,9.2 关键技术研究,概率推理模型 向量空间模型中,假设文档向量空间的基是相互正交的,没有考虑检索词间的相互关系。概率推理模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询与文档相似性计算,由模型自身决定。,9.2 关键技术研究,潜在语义索引模型 利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。 LSI向量中的值是通过SVD分解得到的缩减了的值,内容相近文档的向量也是相近的。,9.2 关键技术研究,特征选择 前面讨论的文本表示模型,一直假定特征向量每一维的特征都是确定的。事实上,这些特征是从文本中选择出来的,这些特征的选择是非常重要的,它强烈的影响到文本表示的准确程度,影响到后面的过滤器的设计及其性能。 主要包括分词与选择两部分。,9.2 关键技术研究,分词 文本内容与文本中出现的词关系十分密切,汉语词间没有明显的标志,分词的目的就是准确的识别文本中的单词。 基于字典的字符串匹配方法 基于统计的分词 基于句法与自然语言理解的方法,9.2 关键技术研究,选择 训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题:首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大,甚至存在较大副作用。常用的特征选择方法有: 文档频率 信息增益 互信息,9.2 关键技术研究,分类算法 其目的为找到特征空间与类别之间的映射关系。常见方法: Racchio方法 K-元最近邻居(KNN)方法 Nave Bayesian方法 支持向量机(SVM)方法,9.2 关键技术研究,Racchio方法 根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类,,9.2 关键技术研究,K-元最近邻居(KNN)方法 给出一个测试文档,从训练文档中找出与该文档最近(用相似度度量)的k个文档,用这k个邻域文档所属的类别作为测试文档的候选类别。,9.2 关键技术研究,Nave Bayesian方法 是一种概率方法,它利用先验概率的联合概率计算出后验概率,并且根据样本集构造分类标准,根据测试样本的后验概率对测试样本进行分类。,9.2 关键技术研究,支持向量机(SVM)方法 建立在一套较为完善的机器学习理论统计学习理论基础之上,并具有较好的泛化能力。,9.2 关键技术研究,模糊模式识别 人类为了对事物进行识别,要对事物按不同要求进行分类,因此根据这种思想可以把不同事物归于不同的种类,用于这种分类的数学工具就是经典集合论。 经典集合并不能描述所有的事物,特别是涉及到与人的认识有关的概念和现象。 由于模糊性更能有效的表示“有关的”、“类似”等概念,将模糊集合的概念应用到信息过滤中 。,9.3 网页过滤实现和结构,系统结构,9.3 网页过滤实现和结构,内容过滤模块,9.3 网页过滤实现和结构,树状分类器,9.3 网页过滤实现和结构,系统流程图,9.4 垃圾邮件过滤实现和结构,9.4 垃圾邮件过滤实现和结构,提升方法(boosting)总的思想是学习一系列决策行动,在这个序列中每个决策对它前一个决策导致的错误判断例子给予更大的重视。尤其是在学习完决策行动之后,增加了由导致判断错误的训练例子的权重值,并且通过重新对训练例子计算权值,在学习下一个决策。这个过程重复T次。最终的分类器从这一系列的决策中综合得出。,9.5 总结,系统主要在以下几个方面进行了研究和实现: 由于传统的URL过滤技术会导致网络访问速度特别慢,因而本系统高速缓存技术引入到URL过滤技术中提出了一种改进的URL过滤技术。传统的URL过滤一般是基于静态URL数据库,灵活性差,速度慢;本系统具有自主学习功能,将用户经常访问的URL、关键词和语义规则保持在一个较小的范围之内,从而提高了过滤速度。 将分层架构技术和模糊集理论引入到信息过滤模型中,并结合向量空间过滤模型提出了一种基于模糊集的信息过滤模型。,9.5 总结,由于传统的基于关键字的页面内容过滤技术会导致漏判和误判,因而本系统引入语义识别模块从而在语义识别的基础上对网页信息进行过滤,并依靠多种语义的组合进行过滤,提高了信息过滤的准确性,降低了漏判、误判率。 结合过滤要求与决策树理论设计的两层支持向量机技术,能够有效的识别话题,并进一步判断对该话题是支持还是反对,从而使过滤效果更精确,同时,由于支持向量机的推广性非常强,有效地解决了训练样本不足的问题。 实现了一个分层过滤的高效的网络信息过滤器,首先系统将过滤级别分为低中高三级,低级仅进行URL过滤,中级进行URL和文本过滤,高级则进行URL、文本、语义过滤。同时分层技术在流程图说明中有一个直观地介绍。,9.5 总结,实现了一个分层过滤的高效的邮件过滤器,系统的过滤级别分两级,用户首先可以选择简单的过滤方法,即根据邮件地址信息的黑白名单过滤,进行初级过滤。过滤掉一部分不合法邮件,然后再经过贝叶斯过滤器进行过滤,使系统的识别率更高。 采用了最小风险贝叶斯分类使得系统的误判率降低,减少了正常邮件被误判的风险。同时又采用提升方法使得在最小风险下又有较高的准确率。,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号