资源预览内容
第1页 / 共42页
第2页 / 共42页
第3页 / 共42页
第4页 / 共42页
第5页 / 共42页
第6页 / 共42页
第7页 / 共42页
第8页 / 共42页
第9页 / 共42页
第10页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
精品摘 要 作为从浩瀚的 Web 信息资源中发现潜在的、有价值知识的一种有效技术, Web 挖掘正悄然兴起,倍受关注。深层网络给数据库和信息检索领域带来的这 一挑战是深远的。面对不同研究领域,要从成千上万的文档中快速找到所需要的论文成为一个很重要的任务。 首先介绍深层网络的研究背景和现状,并针对哈尔滨工业大学机器智能与 翻译研究室的情况,设计了一个面向自然语言处理领域的论文查找下载模型, 最后利用深层网络技术的某些思想,研究了如何从特定的网上数据库中查找 PDF 格式的文档并下载。本系统基于浏览器/服务器(Browse/Server)结构,使用 JSP 作为开发语言, J2EE 作为开发工具,MySQL 作为数据库,并在 Tomcat 5.0 上进行发布。由于 JAVA 语言具有可移植、安全性、解释执行、高性能、动态性,以及稍做修改 后就具有跨平台性的优点,使得本系统操作方便、快捷。关键词 深层网络;自然语言处理;JSP;MySQL;数据库精品AbstractWith the flood of information on the Web, Web mining is a new research issue which draws great interest from many communities.The challenges in the field of databases and information retrieval which brought by Deep Web is far-reaching. Facing with different research areas, we find it important and necessary to get our papers from the tens of thousands of documents quickly.First, I introduce the research background and the present situation of the Deep Web, and design a model of researching and downloading papers which is oriented- NLP for Harbin Institute of Technology %JAVA_HOME%libdt.jar;%JAVA_HOME%libtools.jar;(.;一定不 能少,因为它代表当前路径) path=%JAVA_HOME%bin(2) 安装 Tomcat 后,在我的电脑-属性-高级-环境变量-系统变量中添 加以下环境变量(假定你的 tomcat 安装在 C:Program FilesApache Software FoundationTomcat 5.0): CATALINA_HOME:C:Program FilesApache Software FoundationTomcat 5.0 TOMCAT_HOME: C:Program FilesApache Software FoundationTomcat 5.0然后修改环境变量中的 classpath,把 tomat 安装目录下的 commonlib 下的 servlet.jar 追加到 classpath 中去,修改后的 classpath 如下: classpath=.;%JAVA_HOME%libdt.jar;%JAVA_HOME%libtools.jar;%CATALI NA_HOME%commonlibservlet-api.jar; (3) 安装 MySQL 与 MySQL-front,新建数据库 zz,将数据库表 papers 与 Yanzh 导入到数据库中。(4) 将 papers 文件夹拷贝到 D 盘根目录,将 jar 文件拷贝到 C:Program F ilesApache Software FoundationTomcat 5.0commonlib 下,最后将然后将 runzhi.war 拷贝到 C:Program FilesApache Software FoundationTomcat 5.0 weba- ppS 下。接着进入 C:Program FilesApache Software FoundationTomcat 5.0bin 下运行 startup.bat 文件,启动 Tomcat,在 IE 中访问 http:/localhost:8080,如果看到 Tomcat 的欢迎页面的话说明安装成功了。需要强调的是,http:/localhost:8080/index.jsp 进入的是论文查询面,ht tp:/localhost:8080/Admin.jsp 进入的是管理员验证界面,http:/localhost:808- 0/citeseer1.jsp 进入的网上数据库下载论文页面,用户可以根据需要进行相应的 操作。精品结 论该系统采用 TomcatMySQL+JSP+Servlet+JavaBean 实现。目标实现如下:(1) 前台查询下载功能 向用户展现本地查询界面。查询界面包括三个属性:author(作者) , department(单位) ,title(标题) ,用户通过三个文本框输入想要查询的内容, 提交后返回查询想要的论文,三个属性的关系为 and,并支持作者名字的全称 及简称查询,大小写不区分。若不输入任何信息,系统则认为要检索数据库中 的全部信息。 该系统在检索 title 和 department 信息时,进行的是单词匹配,即论文标题 title 栏内用户只需要输入几个准确的单词即可(无顺序要求) ,除此之外,该 系统可以实现字符串的过滤,以减少非实体关键字和非法字符串给查询结果带 来的影响。用户输入查询属性,提交后进入检索结果页面,检索结果按每页 n 条记录 显示,可更改参数为任意值。页面下方可显示与查询结果有关的各种信息,如 搜索到的总记录数量,每页显示多少条记录,共有多少页,可以显示首页,上 一页,下一页,最后一页。用户可以单击 title 超链接来完成论文的下载任务。(2) 后台管理添加,修改与删除 首先显示验证信息页面,管理员输入用户名及密码,提交后经验证合格则进入显示界面,信息以分页显示,每条记录除了显示基本信息外,还要显示 update、delete、upload,已完成相应的操作。(3) 网上数据库论文下载用户可以通过抽取的查询接口提交查询内容,将返回来的结果存储到本地, 构造不同的正则表达式,抽取所需的超链接,进行层次遍历,获取所有的 PDF 链接,并与论文 title 形成一一对应,供用户完成下载。该系统的预期功能目标均已实现,可以满足论文下载的基本要求。但对于 网上数据库论文下载模块,还具有很大的发展空间,今后可以在这个模块上对 DeepWeb 作进一步的研究。精品致 谢本课题是在郭恒业导师亲切关怀和悉心指导下完成的,导师以渊博的学识 和严谨的治学态度,为学生开拓了研究视野,丰富了专业知识。先生谦逊无私 的高尚品质、朴实真诚的做人原则和一丝不苟的敬业精神,对学生将永远的鞭 策。在我毕业设计期间,郭恒业老师在学习、生活上都给予了我极大的关怀和 鼓励。从论文选题、实验测试到最后论文的撰写,郭恒业老师都做了悉心的指 导,并提出了许多宝贵的建议。藉此完成之际,借此机会谨向尊敬的郭老师致 以最衷心的感谢! 感谢论文中参考的参考文献的作者;对于提供论文中隐含的上述提及的支 持者以及研究思想和设想的支持者表示感谢。 特别感谢研究所实验室老师和师兄、师姐为我论文的完成提供了许多帮助。 感谢我的同学和朋友的支持和帮助! 在求学期间,我的亲属和朋友对我给予了无微不至的关怀,对此,我也表 示深深的感谢!精品参考文献1 LIU Wei,MENG Xiao-Feng1,and MENG Wei-Yi.A Survey of Deep Web Da- ta Integration.Chinese Journal of Computers.2007:1475-1479 2 Fetterly D,Manasse M,Najork M.,Wiener J. L. A large-scale study of the evo-lution of web pages.In:Proceedings of the 12th International World Wide Web Conference, Budapest.2003:669-678 3 Chang K. C., He B., Li C., Patel M., Zhang Z. Structured databases on the w- eb:Observations and Implications. SIGMOD Record.2004:61-704 汪晓平,钟军.JSP 网络开发技术.人民邮电出版社,2003:103-178 5 周晓敏.DreamWeaver MX 应用培训教程.电子工业版,2002:55-71 6 林来兴.动态网页设计师 JSP.机械工业出版社,2001:23-45 7 (美)亨特,(美)罗夫特斯.精通 J2EE.清华大学出版社,2004:256-299 8 (美)马丁.Servlet 与 JSP 核心技术.人民邮电出版社,2001:66-89 9 资讯教育小组.JSP 与 SQL 网站数据库程序设计.科学出版社,2002:202-297 10 飞思科技.JSP 应用开发详解.电子工业出版社,2005:345-358 11 李博.JSP 应用开发指南.科学出版社,2003:45-123 12 邓子云,张赐.JSP 网络编程从基础到实践.电子工业出版社,2006:56-28013 黄日昆.网络引文搜索引擎CiteSeer评析.情报杂志.南宁,2004:1-414 刘伟,孟小峰,孟卫一.Deep Web数据集成问题研究.科技学报.2006:1-1715 宋杰,王大玲,鲍玉斌,申德荣.基于页面Block的Web档案采集和存储.电子工业出版社,2008:275-290精品附录附录正则表达式列表正则表达式列表字符描述 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、 或一个八进制转义符。例如,n 匹配字符 “n“。n 匹配一个换行符。序 列匹配“而“(“则匹配 “(“。 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性也匹 配n 或r之后的位置。 $匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也 匹配n或r之前的位置。 *匹配前面的子表达式零次或多次。例如,zo*能匹配“z“以及“zoo“。*等价于 0,。 +匹配前面的子表达式一次或多次。例如,zo+能匹配“zo“以及“zoo“,但 不能匹配“z“。+等价于1,。 ?匹配前面的子表达式零次或一次。例如,“do(es)?“可以匹配“do“或 “does“ 中的“do“。?等价于0,1。 nn是一个非负整数。匹配确定的n次。例如,o2不能匹配“Bob“中的 o, 但是能匹配“food“中的两个o。 n,n是一个非负整数。至少匹配n次。例如,o2,不能匹配“Bob“中的 o,但 能匹配“foooood“中的所有 o。o1,等价于o+。o0,则等价于 o*。 n,mm和n均为非负整数,其中n = m。最少匹配n次且最多匹配m次。例如, “o1,3“将匹配“fooooood“中的前三个 o。o0,1等价于o?。请注意在
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号