语音合成的韵律生成研究-

1语音合成的关键技术韵律生成研究语音合成的关键技术韵律生成研究李夏李夏 1172092511720925 2012年5月摘要：摘要：本文对语音合成的关键技术韵律生成进行了详细说明，通过对言语产生中的韵律生成的论述全面的讲述了韵律生成的技术内涵。最后文章还介绍了基于时频分步处理的 PSOLA 韵律合成方法的具体实现。关键词：关键词：语音合成；韵律生成；PSOLAAbstractAbstract：In this paper，the writer give the key technology of rhythm of speech synthesis generation a detailed explanation, To the rhythm of the generation of words have discussed the comprehensive tells the story of the generation of rhythm technical connotation. Finally the paper also introduces the time-frequency process processing based on the method of synthesis PSOLA rhythm concrete realization.Keywords:Keywords: Speech synthesis; Rhythm generation; PSOLA1.1. 引言引言语音合成是当前语音领域里一个非常热门的方向，随着人工智能和计算机技术的发展，人们期待着以语音方式进行人机交流。语音合成的目的是让计算机说话。语音合成系统又称为文语转换（Text -To -Speech，TTS）系统如图 1 所示，即从文字到语音的转换系统。韵律生成就是该系统中的关键技术。图 1 文语转换系统框架韵律研究是一个复杂的系统工程,涉及到语言学、语音学、心理学、语用学等学科的综合知识。一个语音单元除了由元音和辅音按时间顺序排列的音段成分之外,还必须包括一定的超音段成分,否则这个音节就不可能成为有区别意义的有声语言。目前对韵律研究的重点是音高、音长、音强三个超音段参数在连续语流中的分布规律及其相互的作用,而研究的基本方法仍是基于对生理特征的分析(如音高下倾理论、一致性理论等)及大语料库的统计分析。音高一直是韵律研究的焦点。研究表明,音高曲线对于不同的音节或音节组合,有其基本的规律,有相对稳定的变化模式,这些为进一步的连续语流的音高曲线(语调)的研究奠定了基础。连续语音的音高曲线融入了发音人的生理特征、感情、语义、语境以及很多的个人特征信息。赵元任先生的“大波浪小波浪”学说以及“橡皮带”理论是语调研究的奠基学说,初步说明了语调的本质规律。沈炯则进一步扩充了这种思想,提出了语调调节的“双线模型” 。Fujisaki、Kochansaki 等结合发音生理机制及表面现象,提出了控制语调的具体模型。1这些认识及相应的模型都基本上能够反映连续语流音高曲线的基本规律,提高了语音合成的自然度。时长也是被关注的热点。总体而言,连续语流中的音节时长取值受很多因2素的影响,如声韵结构、声调、音节所在词的结构、重音模式、音节在语流中的位置影响等。重音对于抑扬顿挫的语调的产生也是很重要的。文献中详细归纳了不同学者在重音研究方面的成果,认为重音并不是通过提高语音的强度来表达,而首先是基频和音长的变化。而且, 基频域的扩展,特别是高音线(基频域的上限)向上扩张是汉语重音的主要表现形式。因此, 音高控制是合成系统中重音的主要实现方式。目前,韵律是合成系统的薄弱环节,所用韵律模型都是对韵律普遍规律的单一应用。把韵律的共性与个性有机的结合起来,是提高语音合成系统自然度的关键。2.2. 韵律的生成技术简介韵律的生成技术简介韵律的声学参数一般包括基频、时长、能量，对于一个 TTS 系统，韵律生成和控制是十分重要的。韵律参数对于控制合成语音的节奏、语气语调、情感等具有重要意义，而对汉谱普通话，基频是和声调直接相关的物理参数。汉语的构成原则可归结如下：由音素构成声母或韵母，韵母带上声调后成为调母，由单个调母或由声母与调母拼接成为音节。汉语有阴平、阳平、上声、去声、轻声 5 个调，1200 多个有调音节。一个音节就是一个字的音，即音节字。由音节字构成词，最后再由词构成句。基于规则的韵律生成。通过对汉语语音学和语言学的研究总结一些通用的韵律规则，利用这些先验知识，可以建立一个基于规则的韵律生成系统。通常规则系统包括两个方面：一是通用规则，比如四个调的基本形状，上声连接的变调规则，时长变化，语气语调的音高变化等；二是目标说话人的特定韵律规则，比如个人的基本调高、调域、语速和停顿等。此外在连续语流中，每个字的发音是会相互影响的，连续语流中一个字的发音的声调与这个字单独发音时的声调会有所不同，在合成的连续语流中，只有具有这种声调变化才能使合成的语音具有较好的可懂度，否则将只会是单字语音的生硬连接。汉语普通话语句中的变调以二字词的变调最为主，因为二字词所占比例约为 74.3%。它的调型基本上是两个原调型的相连的序列，但受连读影响使前后两调或缩短、或变低2。虽然目前已经得到了许多关于韵律的规则，但这些规则对于形成非常贴近自然的韵律还相差很远。为能够发觉隐藏而且难以描述的韵律规则通常利用机器学习的方法来实现韵律的生成。常用的算法模型有隐马尔可夫模型（HMM）、人工神经网络（ANN）、支持向量机（SVM）以及决策树等。基于机器学习的韵律生成。基于机器学习的韵律模型提取一些人工无法分析的细则，大人降低人工参与分析的工作量，但这种方法同时也存在如下问题：首先，一般的学习算法都要求比较多的数据资源，特别是属性特征比较多的时候；其次，如果己有数据资源分布不均匀，将造成训练的整体偏差，影响分析结果；再次，专家知识没有很好的结合利用进来，是一种信息浪费；第四，训练模型没有和语言特征和人的感知挂钩，无法进行转移和调整。基频和时长是影响人的韵律听感的直接声学参数，两者都是随时间变化和环境变化的。参数模型利用先验知识，先分析基频时长和语言特征、人的听感的关系，对此关系建摸，提取基频时长和语言特征及人的听感直接相关的参数。这样的模型有效利用了专家知识，就可以用不多的数据训练出文本语言特征和参数的关系，同时通过调整模型参数就可以达到改变听感的韵律特征的目的。基于参数化模型的韵律生成。Fujisaki 模型是一种广泛使用的基频参数化模型，它主要通过模拟人的发音机理来预测基频的变化。Fujisaki 认为基频的改变主要有两个原因：韵律短语边界(Phrase) 的影响和音节调(Accent)的影响。基频曲线的产生是按照声带振动的机理，以 Phrase 和 Accent 作为预测系统的输入，以基频曲线作为系统的输入，其中以脉冲信号的形式产生 Phrase 形状，以阶梯函数产生 Accent 形状。Fujisaki 模型的机理很简单，对于每个 phrase 命令，就是以一个脉冲信号通过 phrase 滤波器，相应的基频值上升到最大点，然后逐渐衰减。对于连续的 phrase 命令，基频曲线则产生连续的波动。3Accent 命令由一个阶梯函数初始化，因为 accent 滤波器的参数远大于，使得 Accent 元素很快达到其最大值，然后迅速衰减。3.3. 言语产生中的韵律生成言语产生中的韵律生成语音流信息包括音段信息和韵律信息。音节等音段信息通过音色来表达，韵律信息则通过韵律特征来表达。韵律特征主要包含 3 个方面：重音、语调和韵律结构（指韵律成分的边界结构）。由于它可以覆盖两个或两个以上音段，所以常被称为超音段(suprasegmental) 特征。韵律结构是一个层级结构，对它的成分有各种划分方法，一般公认有 3 个层级，从小到大依次是韵律词、韵律短语和语调短语。韵律是所有自然口语的共同特征，在言语交流中起着非常重要的作用：它通过对比组合音段信息，使说话者的意图得到更好的表达和理解。研究发现，即使在默读时，人都会把头脑中的韵律信息投射到所阅读的书面文字上。对人工合成语言而言，韵律控制模型的完善程度，决定了合成语言的自然度。言语研究最初为集中探讨句法和语义加工过程，把韵律搁在了一边。一直到了 20 世纪 60 年代，对韵律的系统研究才开始。这些研究又主要集中在言语理解和言语获得方面，言语产生方面研究较少。但韵律的产生机制也是非常重要的，不了解它就无法全面地理解韵律。韵律生成一开始是作为单词产生的音韵编码过程的一部分受到关注的。随着研究手段的发展，短语和句子产生过程中的韵律生成也得到了研究。这些研究主要是从信息加工的角度进行的。到今天，在单词产生和多词话语产生两方面都取得了一些研究成果。3下面将详细介绍这些研究结果。在此之前，有必要先对现有韵律产生相关模型做一个简要的论述。3.13.1 韵律产生的相关模型韵律产生的相关模型（1）Shattuck-Hufnagel 的扫描复制模型 Shattuck 和 Hufnagel（1979）在 MIT-CU 语料库基础上研究了各种语误，提出了扫描复制模型，首次涉及言语产生中的音韵表征。该模型将音韵编码和表征分为两个部分：序列槽（serial order slots）和音段。其音韵编码就是从左至右序列地将音段填充到对应的序列槽中去的过程。序列槽也被称为框架(frame)，有点类似于后来的模型中的韵律结构。（2）Dell 的联结主义模型或平行分布式加工模型 Dell（1986）的联结主义模型或平行分布式加工模型（connectionist or parallel distributedprocessing）中，语音的表征非常丰富，从大到小分别是语素层、音节层、音韵层（rime）、音位簇（phoneme cluster）、音素层和特征层。纵向地看，激活是在各层级间从上至下传递的；横向来说，每个层级内部的节点都是并行激活的。该模型建立在言语错误分析的基础上，是该类词汇通达理论中影响最大的。但该模型中没有专门的韵律信息表征。后来 Dell（1988）进一步提出，在语音加工中，应构建一个框架层，其中包含目标语音的音节数量、重音位置以及各音节内内容的构成及其位置等信息，但不含具体的音节内容。由于上述两个模型没有专门论述韵律产生，所以本文不详细介绍。迄今为止最全面的韵律产生模型是由 Levelt 等人提出来的，下面将详细介绍它。（3） Levelt 等人的韵律编码和加工模型 Levelt 等人提出的韵律编码模型内容非常全面，且目前该模型还在不断的发展完善。 Levelt（1989）认为，口语句子的产生过程中，所有阶段的加工都是并行的、递增（incrementally）的。韵律编码包括许多过程，一些在词的范畴进行加工，另一些在句子的范畴进行加工。在一个句子的句法结构展开的同时，词汇的语音计划（phonetic plans forwords）也产生了。词汇的通达分成两部分：lemma（包含语义和句法特征）的提取和 lexeme（包含词形及音韵形式）的提取。后者由词形韵律提取阶段（morphological-4metricalspell-out）执行，它用 lemma 作为输入来提取相应的词形和韵律结构。所以韵律特征的生成不需要知道音段信息。这些词形和韵律信息被用在音段提取阶段（segmental spell-out）提取词的音段内容（词所包含的音素及其在音节中的位置），然后韵律和音段二者结合在一起。在最后一个阶段，韵律产生器（prosody generator）执行话语语音计划（phonetic plans forutterances），产生句子的