资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
河北工业大学 硕士学位论文 基于相似语义的文本相似度的判别研究 姓名:王浩 申请学位级别:硕士 专业:计算机应用技术 指导教师:柴欣 20081101 河北工业大学硕士学位论文 i 基于相似语义的文本相似度的判别研究基于相似语义的文本相似度的判别研究 摘摘 要要 随着信息技术的迅速发展, 大量文本信息不断涌入我们的视野, 在这样一个信息化时 代里, 如何快速有效地在这浩瀚的信息海洋里找到需要的东西是亟待解决的问题。 目前的 检索效果不是很理想,主要原因在于用户不能很好地表达自己的需求,而系统给出过多的 查询结果, 给用户检索带来诸多不便。 如果能让用户在结果集中去掉或保留和某一文本相 似的文本集合, 就可以大大减少用户阅读量。 而文本的自动分类研究以及文本相似度的判 别研究工作在这里就起到了重要的作用。 目前文本自动分类所采用的主要方法是向量空间模型。 该方法的思想是把文本分割成 由词或字组成的特征项, 进而把文本表征成由特征项构成的向量空间中的一个点, 通过计 算向量之间的夹角来判定文本之间的相似程度。 目前关于自动分类的研究已经取得了很大 的进展,并提出了一些有效的算法,如 Bayes 算法、支撑向量机 SVM(support vector machine)、Boosting、KNN(k- nearest neighbors)算法等等,其中适用最广泛的是 KNN 算法。 基于向量空间模型的算法作为一种简单、 有效的算法, 在文档分类中引起广泛关注, 并且取得了很好的成果。 但是, 其中的大多数算法都因为计算复杂度太高而不适用于大规 模的场合, 而造成算法复杂度太高的原因之一, 就是向量空间模型中向量空间的维数过多。 因此,如果能够有效地降低向量空间的维数,则算法复杂度将大大降低,准确度也将大大 提高。 论文中提出了一种提高算法分类精度的方法: 对一个标准词库按照语义相似程度进行 统一分类,把 4 万多个词条聚集成 300 个左右的类。做文本分类计算时,把待分类文本在 这个分类词库上进行向量表示, 这样相同类别的词条就可以用同一个向量表示, 而不像之 前每一个词条都要用一个向量来表示, 这样就大大地减少了向量的维数, 从而大大简化算 法的复杂度,有效的提高了算法的准确度。本文主要包括 2 部分:第一部分对标准词库进 行统一分类研究,第二部分通过建立模型,对 KNN 算法在标准词库下的应用进行研究。 关键词:关键词:自动分类,文本挖掘,KNN,词语相似度,向量空间模型,小波变化,信息增 益 基于相似语义的文本相似度的判别研究 ii THE DISCRIMINATION RESEACH OF TEST SIMILARITY BASED ON THE SEMANTICS ABSTRACT With the rapid development of information technology, a continuous influx of a large number of text messages and I perspective, in this information age, one how quickly and efficiently in this vast sea of information to find what they need is a serious problem. At present, the search results are not satisfactory, mainly because users can not express their needs, and the system gives too many results, the user access to the inconvenience. If you allow users to remove or retain the results of focus and a similar version of the text of the collection, users will be able to greatly reduce the amount of reading. The research of automatic classification, as well as the research of similarity discrimination as played an important role. At present, The main method of text categorization is the vector space model of the method of thinking is to split the text into a word by word or composition of the characteristics of the text and then into a representation by the characteristics of the vector space constitute a point by calculating the vector The angle between the text to determine the degree of similarity between. At present, the research of the automatic classification has been considerable progress has been made, and made a number of effective algorithms, just as Bayes、SVM(support vector machine)、 Boosting、 KNN (k- nearest neighbors) and so on. One of the most extensive is KNN. Based on VSM algorithm as a simple and effective method, in the classification of documents in a matter of wide concern, and achieved good results. However, most of them because the algorithms are computational complexity is too high not to large- scale occasions, and the resulting high degree of complexity is one of the reasons for vector space model in the vector space of dimension too. Therefore, if we can effectively reduce the vector space of dimension, the algorithm will greatly reduce the complexity. In this paper, a method to reduce time complexity: a thesaurus in accordance with standards similar to the semantic level of a unified classification of the more than 40,000 entries into a gathering of about 300 categories. Text Categorization do the calculation, the version categories to be classified in the thesaurus on that vector, so that the same types of entries will be able to use the same vector that unlike before each term must be expressed as a vector, This will greatly reduce the dimension of the vector, which greatly simplifies the complexity of the algorithm. This article includes Part 2(two parts): The first part of a unified classification standard thesaurus, through the establishment of the second part of the model, the KNN algorithm in the application of standard thesaurus under study. KEY WORDS: Automatic classification, Text mining,KNN,Word similarity, VSM, Wavelet change, Information Gain 原创性声明原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成 果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公 开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人 和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 日期: 关于学位论文版权使用授权的说明关于学位论文版权使用授权的说明 本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内 容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和 电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索 以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者 机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的 部分或全部内容用于学术活动。 (保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 日期: 导师签名: 日期: 河北工业大学硕士学位论文 1 第一章第一章 绪绪 论论 1-1 课题背景课题背景 随着互联网的发展,以其为载体的信息爆炸般的迅速增长。而文本信息占据着信息的主导地位。传 统的文件方式已经不能适应信息处理的需求, 如何有效的处理这些信息是摆在人们面前的新问题。 数据 海洋本身不产生决策意志,为了进行决策,人们需要不断的扩大数据库能力。但这使得决策者在数据海 洋中更难于决策。如何快速准确地从海量信息资源中寻找所需要的信息已成为困扰网络用户的一大难 题。 为了从大量为了从大量数据的集合中发现有效新颖潜在有用的可理解的模式, 出现了数据挖掘技术。 从大型
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号