自然语言处理与人机交互技术评测综述-

自然语言处理与人机交互技术评测综述自然语言处理与人机交互技术评测综述钱跃良钱跃良刘群刘群林守勋林守勋关键词：关键词：技术评测自然语言处理人机交互 863 评测 1 引言引言本文所说的评测，或者技术评测，特指在自然语言处理和人机交互领域中，所举办的技术评测活动。说起技术评测，可能很多人会跟软件测试、考试、评比之类的概念联系起来。虽然这些概念在表面上有一些相似之处，不过，在自然语言处理和人机交互领域，技术评测有其特定的丰富内涵。甚至可以说，在这个领域中，技术评测已经成为了推动技术进步的一种主要形式。本文首先介绍技术评测的目的和意义以及主要组织形式，其次介绍国际上一些著名的技术评测，然后介绍国内最重要的技术评测，即由我们所负责组织的 863 中文信息处理和智能人机接口评测，最后在结语中对我们现有的工作做总结，并讨论今后的工作。 2 评测的目的和意义评测的目的和意义读者可能会觉得奇怪，为什么在自然语言处理和人机交互这个领域中，技术评测具有如此重要的作用呢？这是与这个领域的研究对象密切相关的。科学实验中，一个重要的原则就是可重复性。任何一篇有学术价值的研究论文，其必要条件是文章中给出了足够的细节，使得其他研究者可以重复其实验结果。在一些传统的研究领域，如物理、化学、生物学中，研究的对象都是客观世界存在的一些事物，而这些事物在我们关注的范围内，都具有相同的特点，也就是说，不同的人所做的同一个实验是可比较的。比如说，我们要实验某种动物对某种药物的反应，只要实验者在论文中清楚说明了实验的对象、实验的条件，另外一个研究者就可以完全重复这项实验，并得到相同或差别在允许范围内的实验结果，从而可以以此作为进一步工作的基础。通过这种可重复的、可比较的实验，人类的科学知识才能不断丰富，科学才能不断取得进步。但是在自然语言处理和人机交互这个研究领域中，实验的可重复性就面临着一个严重的问题。由于这个领域的实验需要使用大量的数据，这些数据不可能在一篇论文中给出来，而这些数据的采集通常具有非常大的偶然性，同一个方法在不同的数据条件下得到的结果差异可能会非常之大。这样，一篇论文所介绍的研究方法对另一个研究者来说，就很难重复。比如，对于语音识别而言，影响实验结果的因素可能有：说话人的性别、年龄、口音，录音的环境、噪音，话筒的质量，说话的方式（自然方式还是朗读）等等。有时，人们通常容易忽略的一些看起来似乎微不足道的因素都可能会对实验的结果造成重大的影响。可想而知，如果没有共同的数据，一个研究者的实验是很难被另一个研究者所重复的。而不同的研究者如果采用不同的数据进行实验，其结果几乎不具备可比性。这样整个研究领域的进展就变得非常困难。为了解决这个问题，在这个领域出现了一些技术评测。由评测的组织者给出共同的数据集，制定统一的测试方法和评价标准，不同的研究者就可以在相同的条件下进行实验比较，从而得到可比的数据，促进研究的进展。技术评测和考试、评比之类活动的主要区别就在于，其目的并不是了解参评者的结果好坏、或者在参评者之间分出个高低上下，而是在于通过评测构造一个共同的实验平台，为不同的研究方法之间提供一个可以比较的基准，加强不同研究队伍的合作与交流。因此，在现在的各种技术评测活动中，除了评测本身外，一项重要的活动就是评测之后的学术研讨会。而在研讨会上，各个参评者（尤其是那些在评测中表现出色的参评者）报告的研究方法，特别是一些新思想、新技术，才是人们最为关心的。这也是技术评测的最终意义所在。如果我们站在更高的层次来理解，技术评测对整个领域的科学研究和技术进步所起到的就不仅仅是一个推动作用。爱因斯坦 1938 年在物理学的进化中说：“提出一个问题往往比解决一个问题更为重要。因为解决一个问题也许是一个数学上或实验上的技巧问题，而提出新的问题、新的可能性，从新的角度看旧问题，却需要创造性的想象力，而且标志着科学的真正进步。”在某种意义上，技术评测引发出的问题引导了以后研发的方向。在一些比较成熟的系列评测活动中，评测项目的设置不是静止的、静态的，而是动态的，不断调整的。一些老的评测项目由于各种原因会逐渐退出历史舞台，而一些新的评测项目会不断出现。这些项目提出的新任务就是新的研究课题，引导研究者去进行相关的研究。有些新的研究课题是由研究者提出的，反映了研究者的新兴趣所在，有的是根据实际应用提出来的，反映了政府或者企业对某些应用的需求。有时，一个新的评测项目甚至可以促成一门新学科的形成，比如信息提取（Information Extraction）这个学科就是在美国国家标准与技术研究院1（NIST）组织的七次MUC2会议以后才有了明确的定义，并开始受到广泛重视的。另外，评测技术本身的进步，对科学研究的进展也起着不可忽视的作用。以机器翻译为例，译文自动评价是个非常困难的问题。所以，传统的机器翻译往往都采用译文的忠实度和流利度两个指标，人工进行评价。但人工评价方法面临的主要问题是成本高，无法重复。这对机器翻译研究造成了很大的困扰。因为在机器翻译研究过程中，研究者总是在不断地设法改进系统，比如增加或修改一条规则、引入一部词典、加入新的特征、修改系统参数或者改进翻译算法等等。通过这些改进，我们可以看到某些句子的翻译效果得到了提高，但很有可能另一些句子的翻译效果反而会下降。这时候研究者迫切需要了解整个系统的性能到底是改进了还是退步了。而人工评测由于成本太高，费时费力，不可能随时随地反复进行。这就使得机器翻译技术的进步变得非常困难，总体水平的提高很缓慢。研究者迫切需要一种自动的机器翻译评价方法。有些人开始将对语音识别的一些自动评价方法引入到机器翻译中，如单词错误率等。但由于在机器翻译中，译文词语的选择、句子的表达方式、词序等都有很大的灵活性，与语音识别有很大的不同，因此这些指标很难准确反映译文的好坏。1991 年，北京大学俞士汶教授从人类标准化考试得到启发，提出了一种基于测试点的机器翻译自动评价方法10，把机器翻译的自动评测向前推进了一大步。这种方法在后来的两次国家 863 机器翻译评测中得到了初步的应用，取得了很好的效果。不过由于采用这种方法构造测试题仍然需要非常专业的语言学家，时间和人力成本都比较高，因此这种方法也没有得到推广。 2001 年，IBM公司的Papineni等人提出了基于n元语法的机器翻译自动评测思想11 。对于任何一个测试集，只要请若干个不同的人类翻译专家对该测试集进行翻译，得到一个参考译文集合， 1 National Institute of Standards and Technology 2 Message Understanding Conferences 就可以随时对机器翻译系统产生的结果进行自动评测，而且这种评测与人类专家的评测相比具有较好的相关性。这种方法自从提出来以后，引起了广泛的兴趣。NIST从 2002 年开始组织的Tides机器翻译评测中就开始使用了这种方法。目前这种评测方法已经在机器翻译研究者中得到了普遍的应用，大大促进了机器翻译研究水平的提高。近年来国际机器翻译水平逐年提高，再次形成了一个热门研究话题。如果不是有了方便的自动评测方法，这种进展是不可想象的。我国的 863 评测1同样对这一领域的研究起到了很好的推动作用。著名的自然语言处理专家黄昌宁教授曾经这样说过： “国家 863 计划智能计算机专家组曾对语音识别、汉字（印刷体和手写体）识别、文本自动分词、词性自动标注、自动文摘和机器翻译译文质量等课题进行过多次有统一测试数据和统一计分方法的全国性评测，对促进这些领域的技术进步发挥了非常积极的作用。但是这期间也遇到了一些阻力，有些人试图用各种理由来抵制这样的统一评测，千方百计用自评来取代统评。其实，废除了统一的评测，就等于丧失了可比的基础。这个损失使得上述任何理由都变得异常苍白。 ”9 由此我们可以看到，技术评测并不仅仅是一件单纯的组织工作，而且也是一项非常需要创造力和想象力的工作。尤其是要使测评真正起到对研究的引导作用，更需要组织者对整个研究领域有全面深入的了解，对国家和企业的需求有很好的把握。 3 评测的主要组织形式评测的主要组织形式通常技术评测在组织上有以下两种形式。第一种是由官方机构组织。比如由NIST组织的系列评测24和由中国科学院计算技术研究所组织的 863 中文信息处理与智能人机接口技术评测1。这种评测活动通常有一定的项目背景或应用背景，与一定的政府基金资助有某种联系，在评测中表现出色的研究机构更容易得到政府基金的支持。NIST每年都组织大量的评测。其中很多都是由美国国防先进技术研究计划署（DARPA3）发起和资助的，有着非常明确的军方应用背景。但评测本身却是完全公开的，任何人都可以参加。另一种是学术机构组织。这些机构可以是长期的学术机构，也可以是一些较大型、参与单位较多的合作项目、甚至可以就是某一次会议的组织者。这些评测通常都是研究驱动的，组织者具有共同的研究兴趣，因此大家愿意在一起组织评测和交流。每次评测几乎都伴随着一次学术研讨会。评测与会议的关系也有多种形式。有些会议就是专门为评测召开的，会议的参与者就是评测的参评者，会议讨论的内容也只与评测相关。典型的如TREC4会议。另一些会议不定期举办不同类型的评测，这些评测是当时与会者都比较关心的问题。比如EMNLP会议（经验主义自然语言处理会议）5就经常组织一些评测，这种评测称为Shared Tasks。每次评测的内容都不尽相同。在这种会议上，评测通常只是会议的一个组成部分，评测的内容每次未必相同，会上也不仅仅是讨论评测相关的内容。技术评测的组织是一项很繁重工作，需要大量的沟通协调、合理的分工和周密的安排。通常，一项技术评测的组织周期包含以下几个过程： 3 Defense Advanced Research Projects Agency 4 Text Retrieval Conference由美国国家标准与技术研究院NIST联合DARPA等机构组织，分为文本过滤、文本检索、问答系统等 5 Conference on Empirical Methods in Natural Language Processing 1. 评测任务的确定：首先确定本次评测的主要内容； 2. 评测大纲的制定：明确定义本次评测每项任务，包括评测的指标体系、数据的规模、数据的格式、相关的规范、评测的进度、评测的方式等等。通常，数据又分为训练集、开发集和测试集；评测的进度通常要规定评测的报名截止日期、各个数据集的发布时间、评测结果的提交日期、研讨会的日期；评测的方式目前通常都是网络评测，具体实现上也需要规定一些细节，比如通过网页提交还是通过电子邮件提交等等； 3. 评测大纲的发布：正式发布评测大纲，通常要通过各种渠道广泛散发，尽可能让感兴趣的研究者都能获得评测的相关信息； 4. 评测数据的准备：根据评测大纲准备评测数据，这个过程工作量较大，同时要保证数据的质量（是否符合规范、一致性如何等）；有些数据需要制作参考答案； 5. 接受参评者报名； 6. 评测数据的发布：向报名参评者发布评测数据，包括训练集、开发集和测试集，一般训练集和开发集发布的时间较早，而测试集通常在规定的结果提交日期前几天发布； 7. 评测结果的提交：参评者运行各自的系统，并向评测组织者提交运行结果； 8. 评测结果的评估：评测组织者对参评者提交的评测结果进行评估，这种评估有些是自动的，有些需要人工进行； 9. 评测结果的发布：这种发布有些是公开的，有些只在参评者内部公布。这个步骤有时是在评测研讨会上进行的。 10. 评测研讨会的举行：参评者在评测研讨会上进行交流。因为所有的论