资源预览内容
第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
第9页 / 共24页
第10页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
中文微博情感评测报告中文微博情感评测报告浙江工商大学 计算机与信息工程学院报告人:陈威指导老师:施寒潇提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结背景 在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源。针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题。微博情感分析l情感分析,包括观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向。l主要技术:(1)情感词典与规则相结合的方法(2)机器学习意义l过滤不合法网络舆论信息,营造良好的网络环境l监督舆论的走势,辅助社会管理l实现商品个性化推荐l对社会计算的研究有重要的意义提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结任务清单l任务一:观点句判定l任务二:分析情感倾向 l任务三:提取情感要素技术准备l分类器:SVM 、 CRFl情感词典扩充:加入网络用语和表情符号 l中文分词技术:海量云分词提纲研究背景及意义研究背景及意义任务预备任务预备任务分析与实施任务分析与实施总结总结任务处理流程构建特征集人工标注训练语料训练集及训练模型生成预测集生成及预测人工标注l利用本团队自主开发的标注工具标注l严格按照主办方提供的标注规则,从样列文件中选取1219条具有代表性的微博进行标注l标注内容包括:是否为观点句、情感倾向性、情感要素训练语料任务一:人工标注的1219条微博任务二:任务一训练语料中451条为观点句的微博任务一特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。2表情符号是否含有情感表情符号参考网络表情符号词典3情感词是否出现情感词在基本的情感词典基础上,再加入包含情感的网络用语作为情感词典的扩充。4情感词个数情感词出现的个数5标点符号是否出现感叹号和问号。! ? 6标点符号是否出现连续的感叹号和问号。!,?7反转词是否出现反转词。是否情感词前面存在反转词(情感词前3个词之内)8程度副词是否含有程度副词。很,特别等9语气词是否含有语气词。啊,哪,啦,呀,吧,呢10网络用语是否存在网络用语参考网络用语词典内容11目标值是否为观点句任务二特征集特征序号特征类型特征内容描述1链接是否含有url链接链接通常以http:开头。2正面表情符号正向情感表情符号个数参考网络用语表情词典3负面表情符号负向情感表情符号个数参考网络用语表情词典4正面情感词正向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。5负面情感词负向情感词出现个数在基本的情感词典基础上,加入包含情感的网络用语作为情感词典的扩充。6反转词是否出现反转词。是否情感词前面存在反转词(情感词前3个词之内)7问号是否出现问号8标点符号是否出现问号或者连续的问号。9目标值情感正负训练模型生成网络用语、表情特征提取提取特征训练模型格式转换分词SVM训练人工标注语料海量分词格式分词结果训练集格式转换预测集生成网络用语、表情特征提取提取特征格式转换分词待预测微博海量分词格式分词结果预测集格式转换预处理预测集生成及预测细节任务一分词前预处理 : 过滤类似 “我感到很高兴”这样的主观抒发情感句,并定为非观点句。任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博使用SVM对预测集进行预测评测结果任务微平均宏平均正确率召回率F值正确率召回率F值一0.6450.9590.7720.6490.9600.770二0.8040.7710.7870.8090.7780.793任务三流程分词特征提取CRF训练及预测结构化标注 情感要素提取任务三特征集特征序号特征类型特征内容描述1Token即该词语名称分词所得的某一个词的名称2POSToken的词性该词的词性,可以在分词结果中取得3上下文窗口某Token上下Token的特征选取了上下文窗口为5的词语的Token 、POS特征4目标值结构化标注 用于提取情感要素特征训练集生成使用与任务二相同的人工标注集作为训练语料结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词SO为情感词,BG为背景情感要素确定u标注为SO,即情感词,作为微博情感倾向u标注为TP-B或TP-E,则可能是情感要素u没有标注TP-的角色,那么就认为该句没有情感要素总结 本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平。 感谢各位专家、学者聆听感谢各位专家、学者聆听本次报告!本次报告!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号