资源预览内容
第1页 / 共71页
第2页 / 共71页
第3页 / 共71页
第4页 / 共71页
第5页 / 共71页
第6页 / 共71页
第7页 / 共71页
第8页 / 共71页
第9页 / 共71页
第10页 / 共71页
亲,该文档总共71页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
国防科学技术大学 硕士学位论文 基于网络评论的文本倾向性分类技术的研究与实现 姓名:单大甫 申请学位级别:硕士 专业:计算机科学与技术 指导教师:周斌 2010-11 国防科学技术大学研究生院工学硕士学位论文 第 i 页 摘 要 随着信息技术在全球范围内的飞速发展,互联网逐渐发展成为反映社会舆情 的主要载体之一。当前,网络舆情形成迅速,对社会影响巨大,对网络舆情进行 分析和预警已经显得越发重要,文本倾向性分类就是其中的一个研究热点。文本 倾向性分类就是对用户关于某个事物或者事件的看法、评论或者观点的文本挖掘, 从而判断该看法或评论是属于对该事物的积极或消极意见。文本倾向性分类在信 息过滤、信息安全、舆情监控等方面都有重要的应用价值。 本文在研究文本倾向性分类技术发展现状的基础上,着重探讨了利用语料间 相互关系来改进网络评论的文本倾向性分类的效果。首先,针对评论网页的特点, 设计专用网络爬虫采集评论网页,然后根据网络评论文本的特点,构造专用解析 器抽取评论文本及评论间的关系,为后续倾向性分类做好准备;其次,基于网络 评论文本间的关系和相关性分析及可靠性(CAAR,Correlation Analysis and Reliability)算法构建完整的网络评论文本倾向性分类器;最后通过实验验证以上 成果对评论的倾向性分类效果。本文旨在通过以上研究提升网络舆情分析中网络 评论的文本倾向性分类性能。本文主要研究内容包括如下四个方面: (1)对现有的文本倾向性分类相关技术和网络评论文本的特点进行研究,分 析传统文本倾向性分类方法在此类数据上的可用性以及不足之处,寻找相应解决 办法。 (2)传统数据采集存在信息采集不全的问题,针对网络评论网页的特点,设 计专用网络爬虫 Deep-Crawler, 有效采集评论网页; 由于当前的解析器不能够有效 解析评论文本,针对评论文本的特点,设计专用解析器 Deep-Parser,有效解析评 论文本及评论间关系,为后续评论文本倾向性分类做好准备。 (3)分析目前文本倾向性分类方法在处理网络评论文本时的不足,提出利用 评论间的关系改进文本倾向性分类的效果。首先提出评论的相关度和可靠度的概 念;基于改进 SBV 极性传递算法,构造基于语义模式库的文本倾向性分类方法; 结合评论的相关度及可靠度,提出了 CAAR 算法,并通过实验验证了 CAAR 算法 的有效性,提高了网络评论文本倾向性分类的效果。 (4)利用上述研究成果,本文基于 YHPODS,设计并实现了面向网络舆情的 基于网络评论的文本倾向性分类系统,为整个网络舆情分析系统的后续开发作积 累和准备。文中详细说明了主要模块的具体实现。 主题词:网络舆情,倾向性分类,网络爬虫,CAAR 算法 国防科学技术大学研究生院工学硕士学位论文 第 ii 页 ABSTRACT Along with the rapid expansion of information technology throughout the world, the Internet has become the main carrier reflecting popular sentiments. Currently, internet public opinion forms quickly and has the huge impact to society, monitoring and forecasting of which has become more and more important, and textual orientation classification is one of the hottest spot in it. Textual orientation classification is text mining of users view, review or opinion on things or events, which is to determine the view or opinion is positive or negative. Textual orientation classification is highly regarded for its value in information filtering, information security, public opinion monitoring. Based on the study of current situation of existing Chinese textual orientation classification method, this thesis focused on considering the relevance of web review texts to improve the effect of textual orientation classification. First of all, considering the feature of webpages of comment, the professional crawler is designed to gather it. And according to the characteristics of review text, the special parser is designed to extract them and their relevancy and to ready for the next textual orientation classification. Secondly, on account of the relevancy of review texts and CAAR algorithm, the integrated textual orientation classifier is constructed. Finally, using above mentioned study achievements, the results of experiment confirmed our thoughts. The aim of this thesis is to improve the effect of textual orientation classification.The main contents are as the following four aspects: (1) Study existing textual orientation classification technologies and the characteristics of web review text, analyze traditional orientation classification methods on the availability of such data as well as shortcomings, to find the appropriate solution. (2) The traditional methof of data collection couldnt gather unabridged data. Considering the feature of webpages of comment, the professional web crawler called Deep-Crawler is designed to gather it. And according to the characteristics of review text, the special parser called Deep-Parser is designed to extract them and their relevancy and to ready for the next textual orientation classification. (3) Analyze the shortage of current textual orientation classification algorithm in web review text, and make use of relevancy of review texts to improve the effect of textual orientation classification. Give the concept of relevancy and correlation, according improved SBV polarity transfer algorithm and the relevancy and the correlation of review texts, propose a textual orientation classification algorithm: CAAR, also confirm availability of CAAR algorithm, improve performance of textual orientation clasificatier. (4) Using the above research results, this thesis designed and implemented an 国防科学技术大学研究生院工学硕士学位论文 第 iii 页 archetypal system of web review textual orientation classification for Public Opinion in Internet based on YHPODS for the follow-up developments. And at the same time, described detail of the primary module in the thesis. Key Words:Internet Public Opinion, Textual Orientation Classification, Web Crawler, CAAR Agorithm 国防科学技术大学研究生院工学硕士学位论文 第 III 页 表 目 录 表 2.1 引文7中抽取两词短语的模式列表 . 12 表 2.2 引文54模式模板列表 . 14 表 2.3 引文51中语法规则 . 15 表 2.4 常用正则表达式的含义 22 表 2.5 HTMLParser 包的结构 24 表 3.1 引文65所用聚焦爬虫与 Deep-Crawler 性能对比 . 29 表 3.2 三种方法实验性能对比 35 表 4.1 LTP 依存句法标注体系及意义68 38 表 4.2 采集数据详细信息表 43 表 4.3 性能分析 43 国防科学技术大学研究生院工学硕士学位论文 第 IV 页 图 目 录 图 1.1 网络评论数据示意图 5 图 2.1 最优分类面 9 图 2.2 服务器客户端爬虫系统 17 图 2.3 基于标记窗的网页正文抽取方法流程图 20 图 3.1 网易评论网页示意图 26 图 3.2 Deep-Crawler 工作原理图 28 图 3.3 简单的 Html 源代码 30 图 3.4 对应的 HTML 文件树结构 . 31 图 3.5 评论网页部分源码示意图 32 图 3.6 评论网页部分源码示意图 33 图 3.7 Deep-Parser 工作原理图 . 34 图 3.8 解析后的评论文本 34 图 4.1 同一主题相关评论文本示意图 36
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号