面向网络论坛话题发现的文本处理技术研究-

面向网络论坛话题发现的文本处理技术研究吴伊萍1,2（1.华侨大学计算机科学与技术学院，福建泉州 362021；2.泉州师范学院数学与计算机科学学院，福建泉州 362000）摘要：论坛、博客、微博、QQ空间等都是重要的网络社交载体，但各自的网页结构和语言风格又有差异.本文根据网络论坛的网页结构和数据特点，阐述了应用于话题检测的网络论坛数据处理的相关技术，包括文本预处理和特征选择技术.介绍了这些技术的发展现状和研究成果，论述了命名实体信息在论坛话题检测中的作用，讨论了论坛中时间信息的识别与规范化处理.关键词：网络论坛；话题检测；特征选择；命名实体TP393.094 ：A ：1673-260X（2011）11-0032-03互联网是把双刃剑，它既提供了大量进步、健康、有益的信息，也滋生了不少反动、迷信、低级的误导性言论.互联网的开放性、虚拟性、隐蔽性和随意性等特点，使得越来越多的网民通过互联网传播信息，表达观点，互联网已成为最草根、最有效的监督平台.在当前动荡的政治、经济环境下，论坛、博客、微博和各种聊天工具成为当今网络信息传播的主要载体.地方网络论坛聚焦着当地的各类信息，且具有传播快速、反映强烈、影响大的特点，是当地网络舆情的“晴雨表”.对本地论坛进行有效监测，有利于快速了解地方信息，对一些人民群众关注度高的问题予以及时疏导和解决，有利于地方经济、政治和社会环境的稳定.网络论坛具有不同于普通网页的网页结构，数据噪音大，用户语言主观性强.近年来对网络论坛的研究主要集中在论坛数据爬取与自动抽取，论坛影响力发现，论坛热点话题发现，网络论坛舆情监测，BBS观点挖掘等.本文根据网络论坛的网页结构和数据特点，阐述了面向热点话题检测的论坛数据处理的相关技术，其中包括文本预处理和特征选择技术.文章介绍了这些技术当前国内外的相关研究方法、进展和工具.在特征选择方面，突出了命名实体中地名和机构名的重要作用，对时间信息的识别与规范化处理进行了探讨.1 相关研究工作1.1 TDT简介话题发现研究最初起源于TDT(话题检测与追踪)，它是1996年美国国防高级研究计划委员会发起的，联合卡内基梅隆大学、Dragon系统公司和马萨诸塞大学一起开展的.TDT的研究目标是从连续的广播、电视新闻节目的语音或文字记录中识别出系统未知的话题以及与该话题相关的报道，或发现与某一已知话题有关的新报道.TDT评测提供了新闻方面的语料TDT2和TDT4，研究者可从LDC（Linguistic Data Consortiun）网站10上申请获得.最初，话题检测是对新闻报道流依据不同的话题做聚类，使用的是文本聚类技术.之后，随着网络的发展，TDT的方法和技术应用于各大门户网站取代人工完成自动专题生成和热点新闻生成等任务，以及QQ空间、网络论坛、博客等的热点话题生成.如腾讯为每位QQ空间用户提供热点话题的服务，Google推出的新闻推荐等个性化的内容服务.1.2 相关定义定义1 舆情是指一定时期一定范围的社会群体对某些社会现象的主观反映，是民众思想、情绪、心理、意见和要求的综合表现.定义2 网络论坛又称为Internet Forum1，BBS，网络社区.维基百科里简称为论坛或讨论区或讨论版，它是一种提供在线讨论的程序，或由这些程序建立的以在线讨论为主的网站.虽然在技术上代替BBS服务，很多论坛还保有BBS的名称.国内著名的论坛有天涯论坛、西祠胡同、猫扑等.定义3 话题在TDT中指由一个种子事件或活动以及与其直接相关的事件或活动组成的.根据话题的定义，一篇报道只要描述的事件或活动与种子事件有直接联系，就与该话题相关.在论坛中，话题又称为线索（thread），它由首贴和回帖组成.首贴的标题为主标题及整个话题的标题，回帖即为副标题.定义4 帖子是指论坛中的会员发表的公开的单个信息，它可以是一个发起讨论话题的首贴，也可以是回复某一话题的回帖.1.3 网络论坛的网页结构与数据特点1.3.1 网络论坛的网页结构论坛采用层次的树形结构，一般分为三层页面：版块页面、帖子列表页面、帖子内容页面.论坛版块页面为一个论坛的总入口，用户可以从不同的版块入口进入相应的帖子列表页面.帖子列表页面是各个帖子的集合，它包括：帖子主题、帖子作者、帖子回复数、帖子浏览数、最后回帖时间和作者，以及是否为精华帖、置顶帖及热帖等属性.帖子内容包括首帖和回帖内容.论坛中站长拥有论坛的所有权，按照不同讨论题材分成不同的版块，各个版块由版主管理，为鼓励会员发言设有会员积分系统.1.3.2 网络论坛的数据特点论坛中主要包含两类数据，一是系统自动生成的，如作者、发表时间、标签等；二是用户创建的，如帖子标题、内容.网络论坛中的数据多为短文本，具有以下特点：（1）实时性非常强，数量巨大.（2）以发表时间排序.（3）同一话题常出现在不同的版块，内容交叉、杂乱.（4）每一条消息包括正文（帖子）、标题、作者、发帖时间等特征.（5）回帖信息多为短为本，且用语不规范，主观性词语多，噪音大，存在大量省略、缩写、指代及拼写错误等现象.（6）网络论坛数据之间存在回复关系，源消息为新发布的帖子，回复消息为一个帖子的回帖.例如A为源消息，B、C、D直接回复A，E、F直接回复D，构成的回复关系树如图1.（7）语义漂移：随着消息数量的增加，消息序列上不可避免地出现语义漂移的现象，即用户讨论的中心议题发生转变7.2 面向网络论坛话题发现的文本处理技术本节介绍了文本预处理中的常用工具和主要思想，分析了网络论坛特征选择中的国内外思路，归纳出面向本地网络论坛的基于命名实体的话题检测方法，并对时间信息的识别和规范化进行了描述.2.1 文本预处理文本预处理是指对抽取出的帖子进行分词、去除停用词、词项归一化，建立文档的向量空间模型.停用词可以使用停用词表.论坛中的短文本数据的文本预处理与长文本相似.论坛数据文本预处理的具体的步骤如下：2.1.1 分词词是文档的最小组成单位9.在英文中，词之间由空格或标点符号分开，因此英文的分词较容易实现.而中文文本除了标点符号之外词语之间没有明显的分隔符.我们可以借助一些中文分词工具.在中文分词领域，研发的分词系统有“庖丁解牛”Poading Analysis，中科院的ICTCLAS分词系统，北京语言大学的GWPS系统，以及哈工大的语言技术平台LTP.2.1.2 去除停用词停用词（stop word）是指在文本中出现频率高但含义虚泛的词语，如英语中的a，an，the，and等，中文中的“的，得，地，这，那，但是，和，然而”等.一个常用的生成停用词表的方法是，将词项按照文档集频率（每个词项在文档集中出现的频率）从高到低排列，然后手工选择那些语义内容与文档主题关系不大的高频词作为停用词.此外，一些词项在整个文档集中出现的频率很低，也不适合作为文本的特征项，通常设定一个词频阈值，只要词项频率低于词频阈值的词即被去除.2.1.3 词项归一化词项归一化指将看起来不完全一致的多个词项归纳成一个等价类，以便在它们之间进行匹配.英文可以使用Wordnet，中文可以使用Hownet语义资源得出词之间的语义相似度从而识别同义词对，也可以使用同义词词典扩展.除近义词、同义词外，英文中还存在大小写转换、词干还原和词形归并等问题.2.2 特征选择经文本预处理后建立的词项-文档矩阵是一个高维的向量空间，使用特征选择的方法以达到降维的目的.特征选择是从原始特征集合中选出它的一个子集来构成新的特征空间.Zhang Zhonghui等人2认为网络论坛中的文本特征选择，一需要突出话题信息丰富的词语；二为克服论坛文本信息长度差异显著的不良因素，按照文本特征人物或机构、地点、名词、动词和其他五类表示，基于不同类别主题抽取特征.Hila Bechker等人3从社交媒体中挖掘出描述事件的文本，社交媒体中的文本内容具有的核心特征包括：作者、标题、标签、日期或时间、地点.通过这些特征识别出与某事件相关的社交站点的文本.张卫7在网络论坛数据的特征提取方面，考虑帖子标题的重要性，修改权重计算TFIDF，增加帖子标题中单词的权重；其次鉴于网络论坛回帖多为短文本，存在关键词稀疏、信息不完备，他根据帖子之间的回复关系构建回复关系树，根据树上特征的传递调整权重.吴昊等人8提出基于聚类的主题发现，使用潜在语义分析计算回帖的相似度，结合时空因素对BBS中的主题进行聚类，发现主题.简而言之，在论坛数据的特征提取中，需根据主题类别抽取特征.一要突出话题信息丰富的词语，如标题、作者、人物或机构、日期或时间、地点、动词和名词等.二需鉴别回帖与首贴之间的相关性，不能盲目认为回帖数高和浏览数量高就是热点话题.2.3 网络论坛中的命名实体2.3.1 命名实体识别简介命名实体包括人名（People）、地名（Locations）、机构名（Organizations）、日期（Date）、时间（Time）、数字（Digit）等.命名实体的识别是从文本中识别出现的专有名称和有意义的数量短语并加以归类.命名实体识别已有二十年左右的发展历史，主要的方法有基于规则的方法、基于统计的方法和二者结合.常用的模型有隐马尔科夫模型（HMM）和条件随机场模型（CRF）.命名实体的识别工具有中科院的ICTCLAS，哈工大的LTP、OpenNLP、Stanford Named Entity Recognizer等.ICTCLAS和LTP适用于中文命名实体识别，而OpenNLP 和Stanford Named Entity Recognizer适用于英文命名实体识别.ICTCLAS除可以进行中文分词外，还具有识别人名、地名和机构名的功能.LTP中的命名实体识别模块可识别人名、地名、机构名、专有名词、日期、时间和数量短语等七类实体.它采用统计和规则相结合的方法，先使用最大熵（ME）方法对文本初始标注，再使用规则的方法对错标或漏标结果进行修正.OpenNLP能够识别人名、地名、机构名、日期、时间、财务数据和百分数.Stanford Named Entity Recognizer使用条件随机场（CRF，Conditional Random Field）序列模型从文本中抽取出机构名、人名和地名.2.3.2 基于命名实体的论坛话题检测在新闻报道的话题检测中，同一话题内的相关新闻报道往往被时间、地点、人物等命名实体要素所连接，合理使用命名实体有助于提升话题检测的性能.Giridhar Kumaran等人4深入研究命名实体在话题检测中的应用效果，发现在不同类别的文档中命名实体的使用效果不同.对于科技类的报道，人名和机构名的作用更强；对于自然灾害类的报道，地名更为重要.余军和陈晓鸥6对人名、地名、机构名等中文命名实体的识别进行研究，使用CRF（条件随机场）模型和特征模板获得不错的识别效果.本地网络论坛主要聚焦地方基础设施建设、公共医疗、教育、住房、出行等问题，例如，温陵社区中的品读泉州子论坛，主要版块有：城市建设管理大家谈，城市论坛，民生民声，报料曝光，天下泉商，楼市大家谈，闽南文化，新闻时评等.其中城市论坛的主题是关注发展、关注城市，反映弊端、建言献策；民生民声的主题是客观反映、理性建言，关注民生、倾听民声.在这些版块中，主要的话题都集中在当地百姓生活、教育、医疗、出行等相关的问题，因此当地地名、机构名在帖子中出现的概率也就大于其他命名实体.如图2所示，2011年7月25日温陵社区截图.在网络论坛的话题检测中，合理使用命名实体将有助于改善论坛话题检测的效果.2.4 网络论坛中时间信息的识别与规范化论坛的信息是动态演化的，随着时间的变化而发展，每个话题都将