面向自动文摘的主题划分方法-

面向自动文摘的主题划分方法童毅见童毅见 2012-11-4主题的概念1，主题的定义现状：鲜有确切的关于主题的定义。2，几个关于“主题”的定义Labadi认为主题是会话或讨论的主要问题Chafe主题是正在讨论的命题所谓“主题”，是介于篇章与段落之间的一个语言单位，一个主题表达或阐述一个相对独立的意义或话题3，本文对主题的定义主题是用来描述一个话语片段所表达内容的一种直观方式，该话语片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位，但是可以通过篇章集、段落集或句子集的方式呈现。主题划分1，主题划分的概念主题划分就是将一个含有多个主题的话语（在本文中以文本方式体现）切分成一系列单个主题。Reynar认为，作者在写作前，会在脑海中收集一些没有连接的主题，在写作过程中为了保证文本的流畅，会有意无意的设置一些主题边界2，主题划分的分类主题划分可以分为层次划分（hierarchical segmentation）和线性划分（linear segmentation）从划分结果来看，线性划分还可以进一步分为连续划分和非连续划分主题划分对自动文摘的意义1，有助于平衡摘要的结构，提高摘要的覆盖面如果采用传统的基于句子重要度从高到低抽取的方法，很容易造成对次要主题的遗漏或忽略，并且容易导致主要主题的冗余。2，主题特征对自动文摘的促进作用 Louis.et al.在比较话语结构特征、语义特征和非话语性特征（如主题词、句子位置等）在单文档自动文摘中的效果时发现，基于话语结构特征的方法在摘要内容上效果最好常见主题划分方法1，基于词汇衔接理论的方法TextTiling、C99、dotplotting2，融合特定语言现象和文本特征的方法1）特定领域的提示短语。例如在广播新闻文本中，joining us2）二元词组频率。避免单词频率引发的歧义问题；3）命名实体的重复。4）代词特征。3，基于概率统计模型的方法PLSA（概率潜在语义分析）、LDA（Latent Dirichlet Allocation）以及小世界模型TSF算法由Kern & Granitzer提出，是一种基于滑动窗口技术的主题划分方法算法该算法在很多方面与TextTiling算法相近，也是一种基于词汇衔接理论的方法。根据文章呈现的评价结果，TSF算法在切分效果上要远好于TextTiling算法，并且只有O(n)的计算复杂度。TSF算法默认主题是由句子集组成TSF算法描述TSF算法描述关于主题的呈现方式的讨论1，句子集 or 段落集2，主题的呈现方式与文本的特征、任务对主题颗粒度的要求有关3，自动文摘对主题划分颗粒度的要求4，句子集 and 段落集以段落集为主题表征的TSF算法面向自动文摘的主题划分策略后期处理p引入代词特征对于切分出来的主题如果首段是代词，则认为切分不正确，将前后两个主题合并主题划分评价1，传统的评价方法的不足文本切分和主题划分的区别召回率、准确率，F值等无法反应near miss现象2，引入参考切分3，引入切分合理度R切分合理度R主题划分评价结果类型主题表征文本数量C平均切分合理度平均准确率平均召回率T1句子集300.5878.6%95.2%T2段落集500.6783.8%97.5%文摘比主题划分传统方法10%0.5340.48820%0.5760.51430%0.6070.4921，内部评价：针对以句子集和段落集表征的TSF算法（无关比较）2，外部评价：针对主题划分策略对自动文摘的影响（F值）进一步改进1，考虑参数对切分结果的影响2，融合更多特定语言现象3，对TSF算法的进一步改进，可以集中在句子相似度计算和词汇权重计算上参数名称PtSt阈值q1（句子集切分）阈值q2（段落集切分）窗口大小W参数值980.450.83