资源预览内容
第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
亲,该文档总共4页全部预览完了,如果喜欢就下载吧!
资源描述
深圳北大青鸟嘉华学校深圳北大青鸟嘉华学校 以就业为导向,学习零起点,是深圳高端 IT 职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)广告屏蔽软件开发技术方案广告屏蔽软件开发技术方案【摘要】广告、垃圾网页充斥 Internet,给用户浏览造成了极大的不方便,而且极大的消耗了网络的 带宽以及终端用户系统的资源。本技术方案在参考研究比较大量广告屏蔽技术后,提出了一种基于关键 词列表以及 BHO(Browser Helper Objects)的垃圾网页过滤方案。 【关键词】垃圾网页 广告屏蔽 BHO HOOK一、一、 概述概述目前网络上流行的广告技术主要有分为以下三种:弹出式窗口,浮动式窗口以及内嵌式广告图片。 大量不必要的信息占满了整个显示区域,使得有效信息的获取变得很难。这些垃圾网页主要都是依靠 JavaScript(简称 JS)实现的。这种脚本语言是在客户端下载完成后,由客户端的 JVM 解释执行的。因 此它是一种客户端执行的语言,即 run at client。其中,弹出式与浮动式窗口主要是由 window.open()或 者 window.showModelessDialog()等创建新窗口等命令完成的。而内嵌式广告图片则是由其编写的一些 特效函数做到的。和样式表文件(CSS)相似,这些运行的代码未必直接写道用户所访问的网页之中, 他可以通过如形式的连接隐藏在后台,直接对所 下载到的 HTML 文档进行分析并不能完全有效的屏蔽这些语句。接下来将对国内外研究现状具体的实现 技术进行叙述。二、二、 国内外研究现状国内外研究现状垃圾网页过滤技术发展到现在已经很成熟了,各大公司的产品的准确率和招回率都已经能达到很高的 水准。目前在这个领域比较领先也比较流行的几款软件有 Microsoft IE 6.0 中自带的网页过滤组件, Maxthon 公司的 Maxthon 以及 MyIE2 系列浏览器中附加的垃圾网页过滤插件,Google Toolbar 也具有 网页过滤功能;国内在这领域的软件也有很多,如 3721 上网助手,雅虎助手以及百度工具栏都有这方面 的功能。在大多数软件中用户都可以设置网页过滤的级别,如只过滤弹出网页,过滤浮动窗口,或者过 滤所有的广告,包括页面当中的 flash 动画以及 Gif 动画。由于上述公司的实现技术相对保密,在相对比 较短的时间内很难了解到他们实现的核心技术。但通过这几天对这几款软件的使用与分析,发现他们主 要是使用垃圾网页关键词列表技术实现的。如 Maxthon 浏览器中的广告猎手就维护了一个专家关键词列 表。在下载网页并执行其中的 JS 代码时,浏览器将对 JS 指定需要下载的连接进行过滤,如有与关键词 列表项符合的链接则取消其下载(具体取消方法将在下一章进行介绍) ,并将所取消的连接写入相应的数 据存储文件中,并在过滤网页列表中加入该记录。用户只需双击该条记录就可以重新加载该页面。其他 的过滤技术也都大同小异,在此就不再复述了。三、三、 实现技术实现技术3.1预备知识预备知识经过对现存的网络产品的比较,本文将采用基于关键词列表以及 BHO 的技术实现对垃圾网页的过滤。 下面现介绍一下 BHO。 BHO(Browser Helper Objects)是浏览器帮助对象,是一种实时组件对象模型(in-process COM) 。 浏览器将会在每次打开的时候加载它。BHO 和浏览器运行在相同的内存区域,并且可以对窗口及其模型 作任意的操作。例如,它可以检测到浏览器的后退、前进和文件完成等事件,访问浏览器的菜单和工具 栏而且可以进行改动,在当前页面创建窗口等操作,简而言之,BHO 就好像一个我们派去的间谍,监视 并控制着浏览器的动作。因此我们要进行 IE 开发,BHO 应该是我们最得力的助手。深圳北大青鸟嘉华学校深圳北大青鸟嘉华学校 以就业为导向,学习零起点,是深圳高端 IT 职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)浏览器访问网页是按照一下这个过程进行的:Navigate-NavigateComplete-DownloadBegin-DownloadComplete-DocumentComplete我们所使用的 BHO 就好像钩子(HOOK) ,可以 hook 到这些典型的 IE 事件当中。我们也正是通过 控制这些事件进行过滤。3.2总体设计总体设计广广告告过过滤滤插插件件弹弹出出式式窗窗口口过过滤滤模模块块浮浮动动式式窗窗口口过过滤滤模模块块网网页页内内容容过过滤滤模模块块数数据据存存储储模模块块关关键键词词维维护护模模块块用用户户接接口口模模块块广广告告过过滤滤插插件件结结构构图图上面是广告过滤插件的结构图。由于对弹出式窗口、浮动式窗口和网页内容中的广告图片的过滤方 法有所不同,而且需要根据用户的配置进行选择过滤,本文将这三种过滤方式化分为三个模块进行实现。 数据存储模块是用来存储被过滤网址的相关信息,其中包括过滤网址的类型(弹出式窗口,浮动式窗口 还是网页内部图片) ,当前的屏蔽时间,其网址的 URL 还有过滤规则。将其按照一定的格式存储在数据 文件中,以备读取。关键词维护模块主要用来维护过滤规则关键词,它包括系统默认的专家关键词,以 及用户通过用户接口注册的新关键词,还有维护在线更新关键词列表(将在随后介绍) 。用户接口主要负 责用户对过滤级别的选择,过滤网址列表的查询及招回,以及用户自定义关键词的添加与维护。下面将 就具体模块的功能与实现进行详细介绍。3.2.13.2.1弹出式窗口过滤模块弹出式窗口过滤模块弹出式窗口的过滤方法很多,主要分为一下几类: 1. 根据窗口外观,如样式、类名、大小判断(弹出式窗口一般不包括状态栏,菜单栏或工具栏) 。 2. 利用 BHO 拦截在 DownloadBegin 和 DownloadComplete 之间的弹出事件,不允许弹出新窗 口。 3. 对 URL 进行过滤,拦截可以网址的下载。 经过对各种方法的比较,本文将采用 BHO 拦截与 URL 过滤相结合的方法进行对弹出式窗口的过滤。在BHO 中,所有的弹出页面都是通过 OnNewWindow2( LPDISPATCH* ppDisp, BOOL* Cancel );打开的。 但是如果其第二个参数 Cancel = True,浏览器就不可以打开新的窗口了。下面我们看一下浏览器弹出窗 口的过程:OnDownloadBegin-发现 window.open 等 Js 或者 vbs-OnNewWindow2()-OnDownloadComplete首先在 BHO 里利用 IObjectWithSiteImpl:SetSite 获得 IWebBrowser2 指针,然后利用 Invoke 处理, 可以在浏览器 OnDownloadBegin 的事件中将一个外部信号量设置为 True,而在 OnDownloadComplete 事件中将他设置回 False,并在 OnNewWindow2()中添加如下代码:Cancel = (所设置的信号量);这样 就可以在网页下载的过程中防止新窗口的打开。同时,在这个过程中,还要对每个所要下载网址的 URL深圳北大青鸟嘉华学校深圳北大青鸟嘉华学校 以就业为导向,学习零起点,是深圳高端 IT 职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)进行关键词匹配,如果有关键词匹配成功,同样取消下载。这是为了防止一些特殊的网页的弹出技术为 我们现在未知的。这个关键词列表有系统自带,并采用 Web Service 技术定期通过官方网站服务器定期 更新。最后还要将过滤的网址信息交由数据存储模块保存,以备查阅和招回。3.2.23.2.2浮动式窗口过滤模块浮动式窗口过滤模块浮动式窗口主要采用 HTML 语言中的定义一个层,并使用 JS 使其达到悬浮或者移动等效果。 它的主要特征有两个:(1)的 position 属性为 absolute。(2)其实现的关键词中包含 setInterval()等 函数。因此我们需要对网页中的这些关键词进行过滤即可。将其层取消显示。同时大多数的浮动窗口都 包含动画文件(如.swf、.gif 等) ,我们在实现关键词过滤时同样需要对这些文件进行过滤,并将过滤信 息存储到数据模块。3.2.33.2.3网页内容过滤模块网页内容过滤模块网页内容过滤主要是针对主页面中的动画文件进行过滤。本文采用的就是关键词过滤。关键词列表是 由系统自带的专家关键词列表与用户维护的自定义关键词列表组成。其关键词匹配过程如下:在前文介 绍了网页打开的过程,本文利用 BHO 在浏览器调用 IObjectWithSiteImpl:SetSite 方法传递对当前浏览 器的引用指针给你的程序。然后浏览器调用你的组件的 IObjectWithSiteImpl:Invoke ,并传递 WebBrowserEvents ID,因此可以根据 EventsID 判断浏览器正在做什么,因此可以在这里对下载事件进 行过滤。比如在 Invoke 发生时,ID 为 DISPID_BEFORENAVIGATE2,则表明浏览器“正要”去浏览某 个 url。如果在这里对其处理,就可以实现禁止浏览某些 URL。要实现对文件下载的禁止,我们需要截获 EventsID 是否是 DISPID_DOWNLOADBEGIN,并在这里“欺骗”一下 IE,让他结束下载。为此需要实现 IInternetProtocolRoot 接口的 Start 方法:HRESULT Start(LPCWSTR szUrl, IInternetProtocolSink* pOIProtSink, IInternetBindInfo* pOIBindInfo,DWORD grfPI, HANDLE_PTR dwReserved);其第二个参数(IInternetProtocolSink* pOIProtSink)用来判断下载是否结束。因此我们首先判断 szURL 能否与关键词列表项匹配或者包含.swf 以及.gif 等文件,如果匹配成功,即该网址包含违禁关键字, 则调用 IInternetProtocolSink:ReportResult 方法将 Start 方法的第二个参数设置为真(pOIProtSink- ReportResult(S_OK,0,NULL);) ,这样就是现了“欺骗”IE,在下载文件之前就结束了其下载。同时我们 还需也将被过滤的网址添加到数据存储文件中,整个过滤过程就完成了。3.2.43.2.4数据存储模块数据存储模块数据存储模块将实现对过滤网址的类型(弹出式窗口,浮动式窗口还是网页内部图片) ,当前的屏蔽 时间,其网址的 URL 还有过滤规则按照一定格式存储到文件当中,并能够按照需要进行读取。其实现主 要通过特定格式的读写文件。3.2.53.2.5关键词维护模块关键词维护模块该模块管理过滤关键词,并通过 Web Service 与官方服务器交互,定期更新关键词列表,实现系统的 自动更新。3.2.63.2.6关键词维护模块关键词维护模块深圳北大青鸟嘉华学校深圳北大青鸟嘉华学校 以就业为导向,学习零起点,是深圳高端 IT 职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)用户接口主要负责用户对过滤级别的选择,过滤网址列表的查询及招回,以及用户自定义关键词的添 加与维护。用户可以通过双击过滤网址列表项招回被过滤网页。下面就是整个系统的数据流图:本软件过滤模块弹出式窗口过滤模块浮动式窗口过滤模块网页内容过滤模块关键词维护模块弹出窗口关键词列表浮动式窗口关键词列表网页内容关键词列表BHOIE用用户户接接口口数数据据存存储储Inter
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号