资源预览内容
第1页 / 共38页
第2页 / 共38页
第3页 / 共38页
第4页 / 共38页
第5页 / 共38页
第6页 / 共38页
第7页 / 共38页
第8页 / 共38页
第9页 / 共38页
第10页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
预处理 网页的分类 页面分析 中文处理网页分类 Hub网页 (Hub pages) 提供向导的网页,如新浪主页,特征是链接集 合 主题网页(authority page) 通过文字具体说明一件或多件实物,如具体的 新闻报道 图片、视频网页 是含图片或视频的主题网页,但文字特别少。页面处理 传统网页分类将整个网页看作一个原子单 元进行整体处理,但是由于网页中一些“噪 声”信息的存在,不仅增加了处理的复杂度 ,还影响了网页自动分类的效果,因而需 要对网页进行预处理。 近年微软亚洲研究院提出block based IR.一般主题网页的结构 标题(关键词和概括) 正文 相关链接 导航信息 广告 装饰,Flash 版权,制作者信息等网页分块方法(1) 基于位置关系的分块法 利用网页页面的布局进行分块,将一个网页分成 上、下、左、右和中间5个部分,再根据这5个部分 的特征进行分类; 实际的网页结构要复杂得多,这种基于网页布局 的方法并不能适用于所有的网页; 这种方法切分的网页粒度比较粗,有可能破坏网 页本身的内在特征,难以充分包括真个网页的语 义特征。网页分块方法(2) 基于文档对象模型(DOM)的分块法 找出网页HTML文档里的特定标签,利用标签项 将HTML文档表示成一个DOM树的结构; 特定标签包括heading、table、paragraph和list等; 在许多情况下,文档对象模型不是用来表示网页 内容结构的,所以利用它不能够准确地对网页中 各分块的语义信息进行辨别。HTML语言编写的网页 Welcome Shandong Univ. HTML标记(和结构有关) 总的标记个数通过src属性的控制,显示特定的图 像; 创建表格 用来排版大块的html段落 用来创建一个表单 ,定义用户一个输入区 创建一个下拉式表框DOM trees:DOM trees: Given the relations among the blocksGiven the relations among the blocksbc=redbc=whiteIMGTABLEBODYrootwidth=800 height=200 TABLEwidth=800Presentation StylePresentation Stylebc=redbc=whiteIMGTABLEBODYrootwidth=800 height=200TABLEwidth=800Compressed Structure TreeCompressed Structure TreeTABLETABLETABLETABLEwidth=800 width=800 bc=redbc=redbc=whitebc=white BODYBODYrootrootd d2 2bc=redbc=red TABLETABLETABLETABLEbc=whitebc=white BODYBODYrootrootd d1 1SPANSPANwidth=800 width=800 bc=redbc=red TABLETABLEBODYBODYSPANSPANbc=whitebc=whiteCSTCST: :Width=800Width=800 TABLETABLE, rootroot2 22 2 2 21 1网页分块方法(3) 基于视觉特征网页分块法(VIPS) 利用字体、颜色、大小等网页版面特征,根据一 定的语义关联,将整个网页表示成一棵HTML DOM树; 利用横竖线条将DOM树节点所对应的分块在网页 中分隔开来,构成网页的标准分块; 每个节点通过一致度(DOC)来衡量它与其它节 点的语义相关性,从而将相关的分块聚集在一起 ; 利用预先设定的一致度(PDOC)作为阈值控制 分割粒度,当所有网页的DOC都不小于PDOC时 ,网页分割就可以停止了。网页去重 由于互联网上存在大量的转载,如何判断 是否A,B两个网页在内容上是一样的,并只 存储无重复的网页内容的工作,称为网页 去重基本方法 Fingerprinting (指纹方法) 取出网页内容部分的文本,看成是字符串,利 用hash函数产生一个向量。若两个网页的hash 函数产生的向量足够接近,认为是内容重复 最长公共子串 取出网页内容部分的文本,看成是字符串,若 两个网页的公共子串足够长,认为是内容重复 。 把网页内容用bag of words表示,利用常用 的相似度计算,相似度大的认为是重复。网页的主题提取和分词 发现主题文本 分词处理 分词技术的广泛应用:信息检索、人机交互、信 息提取、文本挖掘等。是相似度计算的基础。 目前对分词的研究,大都集中于通用的分词算法 ,以提高分词准确率为目的。 目前的分词算法中,一些切分精度比较高的算法 ,切分的速度都比较慢;而一些切分速度快的算 法,因为抛弃了一些繁琐的语言处理,所以切分 精度都不高。 速度:每秒几十k几M 切分正确率:80%98% 中文分词简介和困难 中文分词(Chinese Word Segmentation):将一 个汉字序列切分成一个一个单独的词。比如将“ 组合成分子时”切分成“组合/成/分子/时”。称为是 歧义现象。 人是根据上下文语义解决奇异,但计算机目前无法理解 自然语言中的语义,目前常采用统计的方法解决 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别分词规范方面的困难 汉语中词的界定(基于词典) “教育局长”:“教育/局长”?“教育局/长”?“教育/局/长” ? 核心词表如何收词?即那些词作为词典中的词 “给力”?“忽悠” 词的变形结构问题:“看/没/看见” ,“相不相信” 不同应用对词的切分规范要求不同 n-gram,n 取多大?分词算法上的困难 对未登录词识别 命名实体:数词、人名、地名、机构名、译名、时间 、货币 缩略语和术语:“超女”、“非典”、“去离子水” 新词的发现:“给力”、“忽悠”常用评测指标 召回率(Recall) 分词: 检索: 准确率(Precision) 分词: 检索:基于词典和规则的方法 最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义, 对于某些复杂的交叉歧义也会遗漏。 全切分 利用词典匹配,获得一个句子所有可能的切分结果。 时空开销非常大。 基于理解的分词算法 模拟人的理解过程,在分词过程中加入句法和语义分 析来处理歧义问题。 难以将各种语言信息组织成机器可直接读取的形式, 还处在试验阶段 基于大规模语料库的统计方法N元语法(N-gram)模型n 为2、3、 为组成词的字数基于字的切分方法N元切分法(N-gram) :对一个字符串序列以N 为一个切分单位进行切分。 如二元切分法: “ABCDEFG” “ABCDEFG” 交叉二元切分法(Overlapping Bigram): “ABCDEFG” “ABBCCDDEEFFG” 简单快速,但会产生大量无意义的标引词, 导致标引产生的索引文件的空间,以及检索 和进行标引的时间都大大增加。同时,因为 它的切分单位并非语言学意义上的词语,所 以也会导致检索的查准率下降。 中文分词系统 作为实用的分词系统的构建,一般是先选 择一个语料库作为训练集,利用统计模型 建立不同字组成词的概率,确定如何分词 语料库:指大量的文本,通常经过整理, 具有既定格式与标记;英文 “text corpus“ 的涵意即为 “body of text“ 例子: 广州/ns 近日/t 举办/v 2010/t 亚运会/ns ns noun;t: time, v: verb; 语料库 语料库是通过分词系统、标注系统和人工 校对建立的,一般根据新闻机构的文本建 立的比较多,如北京大学建立的“人民日报 标注语料”、“现代汉语语料库”、“古代汉语 语料库”、“中英文双语语料库”. 原则:规范、一致(看法一致)、规模( 适当多的文本)以及均衡性(各种题材的 文本都有)利用维基百科 利用维基百科发现实体 利用维基百科进行消歧 消歧是指对同一关键词,可能有不同的语义的 分辨,如“苹果” www.wikipedia.org/ 所谓实体往往是指独立的、有各种独特特 征的对象,如“山东大学”、“苹果”等分词和大规模中文信息检索之间的关系 探讨 在当前的信息检索技术中,中文切分是必要的 。 问题 是否需要按语言学意义上的词进行切分。 文档和查询二者的切分方法是否需要一致。 是否检索系统使用的分词算法切分精度越高 其检索结果就越好。分词和大规模中文信息检索之间的关系 探讨 基于字的切分:单字切分,二元切分和交叉二元切分 基于词的切分:基于词典的匹配和基于统计的方法 7组关于切分方法的实验比较结论: 字比词好:3组; 词比字好:3组; 二者差不多:1组 3组关于切分一致的实验比较结论: 切分方法一致更好:1组 切分方法不一致的更好:2组 查询是基于字的切分时,文档是最大匹配切分的结果更好。 查询是基于词的切分时,文档是基于字的切分的结果更好。分词和大规模中文信息检索之间的关系 探讨 两组实验: 1基于单字切分、交叉二元切分和利用ICTCLAS系统切分 的检索性能比较。文档和查询采用同一种切分方法。 2基于单字切分、交叉二元切分和利用ICTCLAS系统切分 的检索性能比较。查询采用人工切分的方法。实验环境: 数据:北大提供的中文网页测试集CWT 部分数据。 检索系统:麻州大学和卡内基梅隆大学合作开发的检索工 具包Lemur 分词和大规模中文信息检索之间的关系探讨分词和大规模中文信息检索之间的关系 探讨原因: 1.查询切分和文档切分采用相同的分词算法,有一些文件切分错误 的词,在查询时也遇到相同的切分错误,所以即使切分阶段错误 ,但最后相同错误匹配,使得仍然可以正确检索到; 2.有些词被错误的切分成几个部分,尽管这样会导致分词正确率下 降,但对于检索来说,最后可以通过结果合并得到正确的结果, 分词的错误并不影响检索的性能; 3.分词测得的准确率高低并不是绝对的,有时跟用标准答案有关。 这涉及到对词的定义问题,有些标准答案认为是该切分的词,实 际上不切分用于检索更加准确一些。如:“国内”vs”国内“ 、“民进党团”vs”民进党团“vs”民进党团“ 适用于大规模中文信息检索的分词算法1.分词算法的时间性能要比较高。尤其是现在的web搜索,实时性 要求很高。所以作为中文信息处理基础的分词首先必须占用尽可 能少的时间。 2.分词正确率的提高并不一定带来检索性能的提高。分词到达一定 精度之后,对中文信息检索的影响不再会很明显,虽然仍然还是 有一些影响,但是这已经不是CIR的性能瓶颈。所以片面的一味追 求高准确率的分词算法并不是很适合大规模中文信息检索。在时 间和精度之间存在矛盾无法兼顾的情况下,我们需要在二者之间 找到一个合适的平衡点。 3.切分的颗粒度仍然可以依照长词优先准则,但是需要在查询扩展 层面进行相关后续处理。在信息检索中,分词算法只需要集中精 力考虑如何消除交叉歧义。对于覆盖歧义,我们可以利用词典的 二次索引和查询扩展来解决。 4.未登录词识别的准确率要比召回率更加重要。要尽量保证未登录 词识别时不进行错误结合,避免因此切分出错误的未登录词。如 果将单字错误的结合成未登录词了,则有可能导致无法正确检索到相应的文档。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号