资源预览内容
第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
第9页 / 共10页
第10页 / 共10页
亲,该文档总共10页全部预览完了,如果喜欢就下载吧!
资源描述
仪器科学与电气工程学院 本科毕业论文(设计)开题报告题 目: 用于智能家居的语音识别系统设计学生姓名: 学 号: 专 业:电气工程及其自动化指导教师: 讲师2015年1月3日1. 选题依据1.1 选题背景语言作为人类信息交流中最重要的和最方便的方式,人与机器的交流能否像人与人一样自如,是人们研究的问题。控制论创始人维纳在1950年就曾指出:“通常,我们把语言仅仅看作人与人之间的通信手段,但是,要使人向机器,机器向人以及机器向机器讲话,那也是完全办得到的”。随着现代科学技术的进一步发展和人民生活水平不断的提高,人们对家庭住宅需求的概念也发生了彻底的改变。人们正在从以往追求房屋空间的宽阔和装饰的亮丽、豪华,向着追求品味、安全、舒适、便捷和智能方向发展。现在的家庭不仅要满足人们生活、工作、娱乐和交流的需要,同时还可以提供充分的安全防护、物业管理等手段。智能家居是建筑艺术、生活理念与信息技术、电子技术等现代高科技手段完美结合的产物,它的出现满足了人们对住宅高性能、智能化的要求21世纪信息时代的到来,IT产业的发展和人们生活水平的提高,“智能家居”、“家庭自动化”、“网络家电”、“家庭网络”等技术的推动,智能家居的生活已经近在咫尺。在智能家居中传统的家用电器的控制,无外乎两种控制方式:手动或遥控。随着家用电器的增多,开关和遥控越来越多,使用极不方便。这时,我们可以釆用语音识别的方式控制,例如,在观看电视频道时,我们可以很方便地直接说出“中央一套”来,所以语音识别及控制在智能家居中尤其重要。1.2 国内外研究现况1、语音识别技术的发展就技术而言,目前国内外对语音识别理论及各种实用算法的研究是一热点。人们普遍关心的问题是不断提高语音识别的识别率、识别更多的词汇量、扩大语音识别的应用等研究。语音识别技术发展到今天,PC 机的语音识别系统己经趋于成熟,而且还出现了一些具有实用价值和市场语音识别前景的语音识别芯片。近几年来,个人消费类电子产品的广泛使用,使大量的识别系统从实验室 PC 平台转移到嵌入式平台设备中,现在嵌入式对特定人语音识别系统的识别精度己经达到 98%以上。 嵌入式语音识别系统和 PC 机的语音识别系统相比,虽然其运算速度和内存容量有一些限制,但是它也有各自的特点。嵌入式系统体积小、可靠性高、耗电低、投入小、便于移动等优点,是嵌入式语音识别系统和 PC 机的语音识别系统相比的最大优势。而且嵌入式语音识别系统多为实时系统,当用户讲话后,系统能够立即完成词条识别并作出反应。这些特点决定了嵌入式语音识别系统的应用十分广泛。可以预测在近几年内,嵌入式语音识别系统的应用将更加广泛。各种语音识别系统将出现在市场上。根据美国专家预测,具有语音识别功能的产品可达 50 亿美元。在短期内还不可能具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一大挑战,我们正一步步朝着改进语音系统的方向迈进。我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达 90 %以上。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。2、智能家居的发展智能家居起源于上世纪80年代的美国,在上世纪末来到中国,经过十几年的发展,特别是伴随住宅产业的进步,智能家居在中国己经显出春笋出露的局面。当家庭智能网关将家庭中各种各样的家电通过家庭总线技术连接在一起时,就构成了功能强大、高度智能化的现代智能家居系统。在国内,智能家居作为一项新兴产业,发展前景毋庸置疑。在2011年;建设部出台的规划中,也表示未来60%以上的新房都具有一定的“智能型家居”功能;显然,智能家居正在形成一种产业,蕴含着巨大的市场潜力。目前的智能家居主要采用国外的一些技术和产品,当然也有一些企业推出自己的产品。例如,海尔公司的“e家庭”和清华同方的“e-home数字家园”。3、发展趋势语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利。目前语音识别系统主要应用有以下几方面: 高档智能玩具(比如能和儿童交流的语音娃娃、声控玩具汽车等)、汽车电子语音导航系统(通过语音实现地名和各种命令的输入)、汽车免提电话(语音拨号),家电语音智能控制(比如空调、冰箱、消毒柜、洗衣机、电灯等)、手机(比如语音拨号)、PDA 等。4、存在问题(1)目前使用的语言模型只是概率模型,所以准确性不会达到百分百;(2)语音识别受特定人、口音或者方言的影响;(3)环境杂音或者噪音对语音识别效果影响较大。2.课题基本内容2.1课题目标以智能家居控制的语音识别为应用背景,利用嵌入式系统开发板硬件平台,设计语音识别算法程序,实现语音识别系统。2.2研究内容(1)学习掌握基于ARM的嵌入式控制系统;(2)学习和研究语音识别算法并运用在ARM中进行编程。2.3预期成果提交一套嵌入式(ARM)语音识别系统,包括嵌入式语音识别算法,系统具有较高识别率和识别速度。3开题前期基础及实施方案3.1了解语音识别原理 (1)语音信号的数学模型 语音是由声道激励发生共振而产生的,由于在发声过程中声道是运动的,因此可以用一个时变线性系统来描拟。当在一个较短的时间间隔内表示语音信号时,可以采用线性时不变模型,如图1表示信号产生模型。图1 信号产生模型三部分模型有各自相应表达式,最终的输出信号由各部分模型串联组成。(2)语音信号的处理语音信号中含有丰富的信息,从中提取对语音识别有用信息的过程,就是特征提取。特征提取方法是整个语音识别系统的基础,对语音识别率有极其重要的影响。它主要分为 3 类:基于 LPC 的倒谱参数分析;基于 FFT 的频谱余弦变换分析;采用前沿数字信号处理技术的特征分析手段,如小波分析、时频域分析、人工神经网络等。语音识别的过程可以看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某个模型获得最佳匹配的过程。模式匹配要用到参考模板,这些模板通过模板训练获得。模板训练就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。(3)语音识别原理语音识别属于模式识别,与人的认知过程一样,分为训练和识别两个过程。在训练阶段,语音识别系统对人类语言进行学习,学习结束,把学习内容组成语音库存储起来;识别阶段就可以把人们当前输入的语音在语音库中查找相应的词义或语义。从信号处理的角度,任何一个语音识别系统都能以图2来表示:图2 语音识别系统3.2语音识别模型语音识别基本原理是对语音信号进行特征提取。目前常用的语音识别算法有基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping),基于统计模型 DSP 的隐马尔可夫模型法(HMM:Hidden Markov Model)以及基于人工神经网络识别法(ANN)等。(1)隐马尔可夫模型法(HMM)HMM 作为语音信号的一种统计模型,在语音处理领域中获得广泛应用。HMM 是在马尔可夫链的基础上发展起来的。由于实际问题比马尔可夫链模型所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为 HMM。它是一个双重随机过程,其中之一就是马尔可夫链,这是基本随机过程,它描述状态的转移。另一随机过程描述状态与观察值的统计对应关系。站在观察者的角度,只能看到观察值,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。因而称之为“隐”马尔可夫模型。隐马尔可夫模型法可用于大多数大词汇量、连续语音的非特定人语音识别,它很好的模仿了人的发音系统的状态与语音信号这两个随机过程,是一种较为理想的语音模型,但是他的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM 的 DSP 才能完成。(2)人工神经网络 (ANN)ANN 在语音识别领域的应用是在 20 世纪 80 年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是 ANN 相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用 ANN 的系统识别性能不高,所以目前 ANN 通常在多阶段识别中与 HMM 算法配合使用。(3)动态时间规整(DTW)语音识别中,不能简单地将输入模板直接比较,因为语音信号具有相当大的随机性,即使同一个人,在不同时刻的同一句话发的同一个音,也不可能具有完全相同的时间长度,因此时间规整必不可少。DTW 是时间规整与距离测度结合的非线性规整技术。假设参考模板特征矢量序列为 a1,a2,am,aM;输入语音特征矢量序列为 b1,b2,bn,bN,MN,那么动态时间规整是要寻找时间规整函数 m=(n),它把输入模板的时间轴 n 非线性地映射到参考模板的时间轴 m。上式中,d n,(n)是第 n 帧输入矢量和第 m 帧参考矢量的距离,D 是相应于最优时间规整下一个模板的距离测度。DTW 是一个典型的最优化问题,它用满足一定条件的时间规整函数 (n)描述输入模板和参考模板的时间对应关系,求解两模板匹配时的累计距离最小所对应的规整函数。DTW 算法通过将待识语音信号的时间轴进行不均匀的扭曲和弯曲,使其特征与模板特征对齐,并在两者之间不断的进行两个矢量最小的匹配路径计算,从而获得两个矢量匹配时累计距离最小的归整函数。这是一个将时间归整和距离测度有机结合在一起的非线性归整技术,保证了待识别特征与模板特征之间最大的声学相似特征和最小的时差失真,是成功解决匹配问题的最早、最常用的方法。由于 DTW 模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别,与智能家居的命令相符,所以本次设计采用该算法。3.3处理器与方案设计嵌入式语音系统硬件平台主要包括中央处理器、外围控制电路、只读存储器、可读写存储器和外围设备。嵌入式系统体积小、专用性强的特点决定了其硬件必须根据实际需要高效率的设计。在设计嵌入式语音识别系统 Linux 平台硬件环境时,结合芯片的功能、功耗、体积、成本和可靠性等多方面性能要求,综合考虑,最终选择用 Samsung 公司的高性能 S3C2440 ARM 处理器作硬件开发平台的核心,围绕它搭建外围电路,其所需要的外围电路芯片,购买的开发板就可以满足。下图图3为系统的总设计框架:麦克风语音处理芯片UDA1341TSARMS3C2440SDRAM显示屏输出命令图3 系统总设计图由相应的语音解码芯片转换语音信号,通过S3C2440的计算和处理,转换成控制指令(可以由数码管或二极管对输出进行检测),最好可以在控制处设立显示界面以便于操作者进行监控。4.重难点(1)语音信号的数学建
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号