资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究,孙东红陈光英中国教育和科研计算机网紧急响应组(ComputerEmergencyResponseTeamofChinaEducationandResearchNetwork)清华大学信息网络工程研究中心(NetworkResearchCenterofTsinghuaUniv.),主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义垃圾邮件历史现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,垃圾邮件的定义,垃圾邮件:普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件,SPAM,UBE(UnsolicitedBulkEmail),UCE(UnsolicitedCommercialEmail)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义垃圾邮件历史现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,1985年8月一封通过电子邮件发送的链锁信,一直持续到1993年,这是首次关于垃圾邮件的记录。1993年6月份,在Internet上出现了名为“MakeMoneyFast”的电子邮件。1994年4月份,CanterThu,23Dec200410:40:21+0800(CST)Message-ID:From:iflkgjSubject:=?GB2312?B?08W73bT6v6q3osax?=To:Content-Type:text/plain;charset=GB2312Reply-To:Date:Thu,23Dec200410:54:34+0800X-Priority:2X-Mailer:MicrosoftOutlookExpress6.00.2800.1158贵公司负责人(经理/财务)您好:我公司是深圳市如意广告有限公司,我公司实力雄厚,有着良好的社会关系。因我公司是定额税额,每月有一部分普通广告发票和其他服务发票(地税)(2%).,检测对象,基于统计,基于规则,应用范围,客户端,客户端,服务器,服务器,基于规则(SpamAssassin),基于统计(贝叶斯),推广性和时效性,基于规则推广性强时效性差基于统计时效性强推广性差,时效性,推广性,基于规则,基于统计,?,语义问题?,CCERT的新方法,统计规则方法规则由统计方法自动生成,CCERT的新方法和传统方法比较,SpamAssassin(SA),免费垃圾邮件过滤系统公开源代码支持sendmail、qmail、Postfix、EximMTA、MUA、POP3基于规则,用户自定义规则查准率高,速度快广泛使用,SA规则例子,bodyDEAR_FRIEND/s*DearFriendb/idescribeDEAR_FRIENDDearFriend?Thatsnotverydear!scoreDEAR_FRIEND0.542,正则表达式,名字,分值,说明,应用范围(信头、信体、原始信体、原始邮件、URI),垃圾邮件判别方法,总分值6.3,阈值5.0ptsrulenamedescription-0.5DEAR_FRIENDDearFriend?Thatsnotverydear!0.1NORMAL_HTTP_TO_IPURI:Usesadotted-decimalIPaddressinURL0.0HTTP_ESCAPED_HOSTURI:Uses%-escapesinsideaURLshostname0.5HTML_60_70BODY:Messageis60%to70%HTML0.0HTML_MESSAGEBODY:HTMLincludedinmessage2.9HTML_IMAGE_ONLY_08BODY:HTML:imageswith400-800bytesofwords1.0HTML_FONT_LOW_CONTRASTBODY:HTMLfontcolorsimilartobackground1.2MIME_HTML_ONLYBODY:Messageonlyhastext/htmlMIMEparts,所有规则都检查计算总分值:匹配的规则的分值之和总分值大于阈值则是垃圾邮件,SA对中文的支持,SA主要针对英文垃圾邮件缺乏中文规则英文规则对中文邮件的影响,CCERT的中文垃圾邮件过滤规则集Chinese_rules.cf(,Chinese_rules.cf的运行框架,垃圾邮件样本,规则集,自动生成,邮件服务器,POP3代理服务器,客户端,下载,CCERT提供服务,各地用户,Chinese_rules.cf的匹配速度,Chinese_rules.cf包含约500条规则规则简单则匹配快Subject规则占90%、Body规则占10%普通PC(P42.8G)匹配一个大小为5.0K的邮件需要0.04秒每天能处理216万封邮件,语义问题?,Chinese_rules.cf的准确率,Chinese_rules.cf的进展,用户查看规则统计,用户使用规则统计,从9月7日至12月15日,SA把超过4.5的邮件判为Spam,本邮件分值为10.3,如果没有中文规则集,本邮件分值只有3.1,将会判为正常邮件,总结,推广性、时效性和语义问题垃圾和正常邮件样本用户反馈信息与在线学习Chinese_rules.cf和其它规则的冲突语义问题在规则上的体现多种方法的结合,Thanks!Spamservice:86-10-Email:Tel:86-10-62795818-6222Address:MainBuildingRoom310,TsinghuaUniv.Beijing,China100084,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号