资源预览内容
第1页 / 共31页
第2页 / 共31页
第3页 / 共31页
第4页 / 共31页
第5页 / 共31页
第6页 / 共31页
第7页 / 共31页
第8页 / 共31页
第9页 / 共31页
第10页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
一种数据驱动的Wrapper自动 生成与维护方法王仲远 艾静 孟小峰 中国人民大学WAMDM实验室 http:/idke.ruc.edu.cn1大纲 背景介绍 (2) 若语义块不匹配,源语义块上的数据值与目 标语义块上的数据值大部分具有较低的相似度 值.非常重要!10不同网站同一时期的页面(a)当当网上的页面(b)卓越网上的页面数据驱动的Wrapper生成11同一网站不同时期的页面(a)当当网改版前页面(2006)(b)当当网改版后页面(2008)数据驱动的Wrapper维护12Wrapper生成与维护过程 Wrapper生成扩散 Wrapper维护可以利用现有 的方法先生成 一个高精准的 Wrapper13基于XPath的Schema-Guided数据抽取方法XHTML页面Schema-Guided抽取规则 14基于相似度值的语义块匹配源语义块组目标语义块组求得目标数据块的XPath15语义块相似度值的迭代计算16大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍17在不同领域上的有效性实验Deep Web网站#AT#R#RT99网上书城766china-pub网上书 店877北发图书 网111111当当网171515王府井书店765蔚蓝网1099新华在线766中国书网111111中国图书 网171716总计958886Deep Web网站#AT#R#RTIT168484646PCHOME 373635MyPrice464443泡泡网444242人民网IT频道575351万维家电网373636中华网科技413939总计310296292Deep Web网站#AT#R#RT好听音乐网777网易娱乐资 料 库121110九天音乐网766音乐天空666总计323029Deep Web网站#AT#R#RT环球影酷141312中文电影资料 库988中国影视资 料 馆101010影视之狐131212总计464342#AT#R#RT总计483457449查全率:92.96%查准率:98.25%表1 图书领域的Wrapper生成验证(种子点:卓越网) 表2 计算机领域的Wrapper生成验证 (种子点:比特网)表3 音乐领域的Wrapper生成验证(种子点:一听音乐网) 表4 电影领域的Wrapper生成验证 (种子点:IMDB中文网)表5 4个领域的Wrapper实验结果统计18在不同领域上的有效性实验(2)19语义块匹配的收敛速度0 5 10 1510007505002500目 标 语 义 块源语义块 (1)5个匹配页面对 20语义块匹配的收敛速度0 5 10 1510007505002500目 标 语 义 块源语义块 (2)10个匹配页面对 21语义块匹配的收敛速度0 5 10 1510007505002500目 标 语 义 块源语义块 (3)15个匹配页面对 22语义块匹配的收敛速度0 5 10 15目 标 语 义 块源语义块 (4)20个匹配页面对1000750500250023大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍24总结 不同于以往工作使用结构或特征分析页面(特征驱动), 进而产生Wrapper的方法,本文创新性地提出数据驱动的 Wrapper导出方法。 本文提出的方法,将Wrapper的生成与维护过程统一起来 。 本文提出的数据驱动方法,无需设置参数及阀值。相对于 先前方法,具有更广泛的适用性,并能达到较好的集成效 果。 25大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍26系统介绍 工作通:工作信息集成系统 网址:http:/www.jobtong.cn 图书价格比较网:图书领域的信息集成及价格比较系统 网址:http:/idke.ruc.edu.cn/books 27C-DBLP介绍基于本文的方法,我们还开发了一个中文文献的集成系统 C-DBLP( http:/www.cdblp.cn )已收录计算机领域的以下9本权威中文期刊和1个学术会议的数据(1)软件学报1990-2008年(2)计算机学报1978-2008年(3)计算机研究与发展1960-2008年(4)计算机工程1975-2008年(5)中国图形图象学报1996-2008年(6)中文信息学报1986-2008年 (7)计算机科学1979-2008年 (8)小型微型计算机系统1980-2008年 (9)计算机科学与探索2007-2008年 (10)NDBC 2000年-2007年论文集的数 据 28以作者为中心的结果展示方式参考文献的 展示方式29挖出来“晒晒”30谢谢Q&A31
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号