资源预览内容
第1页 / 共21页
第2页 / 共21页
第3页 / 共21页
第4页 / 共21页
第5页 / 共21页
第6页 / 共21页
第7页 / 共21页
第8页 / 共21页
第9页 / 共21页
第10页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
科研进展和开题准备Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望总体框架一一 科研成果和科研方向科研成果和科研方向成果成果科研方向科研方向二二 开题准备情况开题准备情况一个系统一个系统三个可能创新点三个可能创新点科研成果科研成果n学术会议pdf资源的抓取n参与法学和经济学领域web资源检索系统的实现n协助苏哲师兄完成网络资源抓取系统的部分模块,接手后续工作。科研方向科研方向n网页资源主题抓取方面的相关工作PDFDOCHTMLDatabaseKeyword门户(经济学门户(经济学法学类)法学类) 学术(会议类)学术(会议类) 个人主页类个人主页类 系统的架构Topical Topical RetrievalRetrieval中文中文PDF资源抓取系统资源抓取系统英文英文PDF资源抓取系统资源抓取系统HTML网页资源抓取系统网页资源抓取系统特色经济学法学类资源抓取系统特色经济学法学类资源抓取系统会议学术类资源抓取系统会议学术类资源抓取系统网页资源抓取的过程网页资源抓取的过程n1. 主主题题描描述述:研究主题描述的方式,选择一种适合的方式描述主题,既可以与原有系统相融合,便于用户使用,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。n2. 主主题题爬爬虫虫:研究主题爬虫的实现方式,主题爬虫目标是希望在尽量小的搜索空间中找到尽量多的与主题相关的资源,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。n3. 网网页页分分析析:分析抓取到的网页资源的结构,在此基础上通过某种高效的算法确定网页中的主要信息块。n4. 信信息息抽抽取取:针对包含信息量大、格式相对规范的网页资源,提出一种有效的主题信息抽取算法。n5. 资源展示资源展示:针对经济学法学门户知识检索平台,选择一种对用户友好的推荐资源展示界面。存在的问题和难点n如何确定一种高效简洁的网页分块算法 n如何迅速有效地确定网页的主要信息块 n网页资源的去重 n网页中的主题无关信息的去除 n主题信息提取结果与主题的相关性评价 另外一种抓取策略nStructure-driven的抓取方式,实验室是是基于content-driven。n针对特定门户,精确率和召回率都很高。nSite mapping ,生成target pages mapnnavigation pattern generation正则表达式。Structure-driven的抓取方式Entry pointSample pageTarget pageTPMTPM的转化和NP的选择。算法网页资源的去重 nWeb上的html网页资源虽然千差万别,但仍然有大量的重复资源。这种重复可以分为以下三类:n完全相同的重复。主要原因为某一个具有高权威的网页被其他众多的网页直接援引,使用直接提供URL链接的方式进行引用。这样一个同样的页面的链接会出现在其他N个页面上,在我们的主题爬虫去爬取时,便会得到这些重复的资源。这些网页资源的URL、标题和内容会完全相同。n文章URL不同,但标题和内容相同的重复。主要原因为其他页面将权威页面的标题和内容拷贝至本地站点静态存储并给予不同链接地址。n文章URL不同,标题也不同,但内容完全相同或大致相同的重复。与前两种重复方式相同的是,其他页面对权威网页进行转载;但却只是转载了权威页面的主要内容或主要段落,这样得到的新的网页虽然URL、标题甚至网页的结构都与源网页不同,但内容却完全相同或大致相同。 网页去重的策略n同源网页去重n基于网页内容的去重同源网页去重构造一个适当的哈希函数H 可得到从网页URL 字符序列到哈希值的映射,相同的URL 字符串会得到相同的哈希值,从而说明该URL 已被下载过.基于网页内容的去重n内容重复或近似的网页在新闻类网站中所占的比例是很高的.比如:有些重要网页可能被多家网站同时转载(如教育部关于加强学校体育活动安全防范工作的紧急通知) ,虽然它们的URL 不同(甚至标题也略有不同,如教育部要求加强学校体育活动安全防范工作的紧急通知) ,仍应认为是同一个内容,不需重复下载.基于网页内容的去重n由于自然语言的复杂性,一直是搜索引擎领域一个亟待解决的难题。其关键问题是文本特征的抽取和大规模内容的快速计算。基于网页内容的去重n基于词频统计的方法n一种基于网页文本结构的网页去重基于词频统计的方法n通过统计文本中出现的关键词的个数,将高频词作为文本特征来计算相似度。由于一篇文章的词频很难被修改,这种方法的召回率很高。但是对于一些新闻题材或模板类的文章,由于关键词非常相似,常常会引起误判,准确率较低。一种基于网页文本结构的网页去重n对网页文本结构有标识性作用的HTML结标签和项目编号或符号赋予一定的权值,然后依据自然段权值的大小来生成目录结构树。n比较各个层次的相似度,md5值来比较。开题准备n一个系统:完善已有的系统。n数据集n潜在的创新点:n目录型网页资源的获取n网页资源去重的问题n去除网页中的噪音信息 谢谢! Q&A
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号