资源预览内容
第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
亲,该文档总共8页全部预览完了,如果喜欢就下载吧!
资源描述
http:/www.paper.edu.cn 基于基于 DSP 的智能无线音频传感器的智能无线音频传感器 王晓凡,徐塞虹 北京邮电大学计算机科学与技术学院,北京 (100876) 摘摘 要:要:作为传感器网络的高级形式,音视频传感器网络在环境监控、安全监控以及医疗保 健等诸多应用领域发挥重要作用。本文采用数字信号处理技术,设计了一种体积小,具有声 音信号处理能力的无线音频传感器节点, 详细描述了节点硬件各个模块的功能以及实现。 针 对处理复杂的 DSP 模块,介绍了声音检测、识别以及压缩的实现机制和声音信号的数字处 理流程。最后,通过实验对节点性能进行了测试。 关键词:关键词:DSP,音频传感器,无线通信 中图法分类号中图法分类号:TP212.9 1. 引言引言 音视频传感器网络其目的是协作地感知、 采集和处理网络覆盖的区域的音视频信息, 并发布给观察者。 音视频传感器网络有别于传统的传感器网络, 它集中于处理信息量较大的音视频数据。音视频传感器网络的突出特点使其在环境监控、安全、交通和民用等诸多领域具有巨大的应用价值,成为目前信息领域一个相当活跃的研究分支1,2,3。例如海关和公共集会场所的安全监控, 根据用户感兴趣的数据特征进行目标的监测及跟踪, 并利用一些复杂的声音和图像处理技术,如声音识别、人脸识别、模式识别等技术,对被监测目标进行分析、处理及识别。 2. 现状现状 对相关领域研究发现, 音视频传感器网络的发展仅处于初级阶段。 目前针对传感器节点的研究大部分工作没有涉及音视频传感器节点的设计, 尤其是无线音视频传感器节点, 很多关注于传感器节点的无线传输能力、节能以及模块化的研究4,5,而相当多的应用,例如环境监控、家庭安全等,迫切需要灵活、微型、功耗低的无线音视频传感器节点。 目前使用广泛的是加州大学伯克利分校主持开发的低功耗、 自组织、 可重构的无线传感器节点系列6,例如:Mica、Micaz节点。Micaz节点硬件有两个模块,一是处理和通信模块: 使用的处理器是Atmel公司的产品, 无线通信模块使用了Chipcon公司的CC2420。 CC2420支持Zigbee通信技术, 支持IEEE802.15.4协议, 数据传输速率最高达到250Kbps, 可快速休眠,节省系统能量;二是传感器模块:主要针对温度、湿度、加速度,还有音频,但音频主要为了定位使用。 因此, 用于监控和安全方面的音视频传感器节点的设计研究还没有被广泛涉及,这主要由于该类型传感器节点耗能多,数据量大,电路复杂。本文在Micaz节点的基础上,设计了一款低功耗、硬件压缩效果较好的音频采集卡,采用Micaz通用的标准接口,选用合适的音视频压缩、视频采集、音频采集芯片,实现模块堆叠扩展。 3. 音频传感器音频传感器 音频采集传感器在一块PCB 上进行了模拟音频采集、声音识别以及音频压缩,处理后的语音数据通过无线传输模块发送给观察者。 音频采集模块的设计包括硬件设计和底层驱动-1- http:/www.paper.edu.cn 软件设计, 除此之外还要设计灵活可靠的上层软件, 使音频传感器满足各个领域用户的需求。 我们设计的音视频传感器主要功能如图1所示: 1) 声音信号预处理:包括前置放大、增益控制、带限滤波三个方面。 2) 音频模数转换: 对输入的经过预处理的模拟语音信号进行采样和量化, 获得数字化的语音信号,并将数字化语音数据输出到DSP进行处理。 3) 数字信号处理:完成事件检测、特征提取、模式匹配以及语音压缩的功能。对DSP中各个处理模块的详细描述见3.2节。 4) 主处理器:传感器节点的计算核心,所有的设备控制、任务调度、能量计算以及功能协调、 通信协议等都在这个模块的支持下完成, 因此处理器的选择在传感器节点的设计中是至关重要的。 5) 无线通信模块:负责将声音识别结果以及用户所需要的语音数据传递给观察者。 前置放大带限滤波增益控制A/DDSP主处理器无线通信声音信号预处理图 1 音频传感器模块框图 3.1 硬件系统硬件系统 单片机 MSP430 TIDSP TMS320C5509Audio ADC UDA1341DATAADDRRDWRADATAMICCC2420 802.15.4电源图 2 音频采集模块硬件框图 处理器选用美国 TI 公司的 MSP430-F149,是超低功耗的 16 位单片机。同其他微控制器相比,MSP430 可以大大延长电池的使用寿命,具有超低功耗的结构体系:在 1MHz,0.1-400uA 的额定工作电流,2.5-5.5V 的工作电压。该处理器还有以下特点:从备用模式的唤醒仅需要 6uS,丰富的中断能力减少了查询的需要;灵活、强大的处理能力,如优先级和嵌套的中断结构、程序可以在 RAM 中运行、快速的 16 进制和 10 进制的转换等;丰富的存储器、外设:片内有 12 位的 A/D 转换,多个定时器和 PWM 功能,多个 I/O 具有丰富的中断能力;内嵌 2K 字节的 SRAM 和 60K 字节的 FLASH,非常适合实时应用领域。 -2- http:/www.paper.edu.cn 无线通信模块使用了 Chipcon 公司的 CC2420。CC2420 支持 Zigbee 通信技术,支持IEEE802.15.4 协议,数据传输速率最高达到 250Kbps,可快速休眠,节省系统能量,因此在MICAZ 主板上设计音频传感器是十分合理并且灵活的。 DSP选用TMS320VC5509芯片,是TI公司针对低功耗应用领域推出的一款低功耗高性能DSP,采用1.6V的核心电压以及3.3V的外围接口电压,最低可支持0.9V的核心电压以0.05mW/MIP的低功耗运行。 TMS320VC5509支持丰富的外设接口, 最高支持144MHz的时钟频率,片内具有双乘累加器,每周期可执行一条指令或两条并行指令,具有高达288MIPS的处理能力。TMS320VC5509内部存储器采用统一编址,带有128K字RAM,其中包括32K字双存取RAM (DARAM) 以及96K字单存取RAM (SARAM) , 另外还有64KB片内只读ROM,并可以实现高达4MB的外部存储空间扩展,是一款具有较高性价比的低功耗DSP芯片。在该DSP上可以灵活设计各种模式识别和音频压缩的软件。 数字化处理选用芯片UDA1341,提供AD 和DA 功能,功耗低。语音A/D 将MIC 检测到的语音进行A/D 转换。 3.2 数字信号处理模块数字信号处理模块 对于音视频数据处理,DSP是最恰当的选择。而DSP里面的算法和功能的选择则更为关键。基于我们设计的音频传感器节点,功能如图3所示,DSP将数字化的语音信号经过去噪、事件检测等预处理之后, 提取语音信号的特征, 与用户发送到传感器网络中其感兴趣的数字特征进行模式匹配,匹配成功则将通知用户,否则不做处理。用户可以根据需要进行下一步的工作,如果不仅只是为了得到特征已匹配的简单信息,而且需要其具体音频内容,那么DSP还要对数字化的语音信号进行压缩处理,以适应在带宽有限的无限传感器网络上传输。下面分别介绍一下各模块的功能。 数字化 语音信号特征提取模式匹配识别结果音频压缩DSP去噪事件检测图 3 DSP 功能框图 3.2.1 去噪去噪 将含噪的语音信号通过去噪处理, 得到干净的语音信号后并通过预加重技术滤除低频干扰,尤其是 50Hz 或 60Hz 的工频干扰,提升语音信号的高频部分,而且它还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。 3.2.2 事件检测事件检测 -3- http:/www.paper.edu.cn 即区分说话人声音和噪声。由于说话人的声音特征是相对不变的,可以利用声音信号在特定时段的能量和进行端点检测, 本系统采用计算短时能量和短时过零数进行端点检测。 语音信号的采样频率为 8kHz,样本区间为 10ms,共计 80 个采样点。每隔 10ms 计算一次短时能量和短时过零率。短时能量和为: +=kknWkAEn2)()( 其中:n=80,为一个语音帧内的采样点数;A(k)为一维语音信号的离散函数;W(k)为窗函数。当采样点的短时能量和大于特定门限时, 标志着声音信号的开始。 通过对语音信号的短时能量和短时过零率检测可以区分静默帧、 白噪声帧和清音帧, 声音信号保留对求取基音、 LPCC等特征参数非常有用的浊音信号,对于白噪声,则用于噪音识别,以识别在较安静的情况下的异常情况。 3.2.3 特征提取特征提取 即提取语音信号中表征人的基本特征,即特征参数。特征参数必须能够有效地代表声音特征,并且具有很好的区分性;各阶参数之间要有良好的独立性;同时要求特征参数计算简便,算法高效快速,以保证识别的实时实现。说话人特征大体可归为下述几类: (1)基于发声器官如声门、声道和鼻腔的生理结构而提取的参数,如谱包络、基音、共振峰等。 其中基音能够很好地刻画说话人的声带特征, 在很大程度上反映了人的个性特征。 (2)基于声道特征模型,通过线性预测分析得到的参数。包括线性预测系数(LPC)以及由线性预测导出的各种参数,如线性预测倒谱系数(LPCC)、部分相关系数、反射系数等。根据前人的工作成果和实际测试比较,LPCC 参数不但能较好地反馈声道的共振峰特性,具有较好地识别效果,而且可以用比较简单的运算和较快的速度求得。 (3)基于人耳的听觉机理,反映听觉特性,模拟人耳对声音频率感知的特征参数。如美国尔倒谱系数(MFCC)等。 在计算机平台的仿真实验中, 通过各种参数的实际比较, 采用 MFCC 参数比采用 LPCC参数有更好的识别效果。但 MFCC 系数计算时间长并且复杂,因此要保证系统识别的实时性,就只有牺牲参数精度。而 LPCC 参数的计算有递推公式,速度可以保证,识别效果也满足实际需要。本系统采用了基音周期和线性预测倒谱系数(LPCC)共同作为说话人识别的特征参数。采用的基音估计方法是:首先对带通滤波后的短时语音信号进行线性预测,求取预测残差;再对残差信号求自相关函数,找出第一最大峰值点的位置,即得到该段语音的基音估计值。 基于线性预测分析的倒谱参数 LPCC 可以通过简单的递推公式由线性预测系数求得。定义线形预测模型为: =miiinSanS1)()( 其中:S(n)为输入信号的 Z 变换,a1am 为所求特征参数。 3.2.4 模式匹配模式匹配 目前针对各种特征参数提出的模式匹配方法的研究越来越深入。典型的方法有:矢量量-4- http:/www.paper.edu.cn 化方法、高斯混合模型方法、隐马尔可夫模型方法、动态时间规整(DTW)方法和人工神经网络方法。这些方法都有各自的优点和缺点。其中DTW算法对于较长语音的识别,模板匹配运算量太大,但对短语音(有效语音长度低于4s)的识别既简单又有效,而且并不比其他方法识别率低,特别适用于短语音、与文本有关的说话人识别系统。本系统采用端点松驰两点的(DTW)算法,端点松驰引起的计算量增加并不大,还可以放松对事件检测的精度要求。动态时间规整(DTW)算法基于动态规划的思想,解决了说话人不同时期发音长短、语速不一样的匹配问题。DTW算法用于计算两个长度不同的模板之间的相似程度,用失真距离表示。假设提起的特征参数和用户发送的其查找人的参考模板分别用A和B表示,其中:A=a1,a2,am,B=b1,b2,bn。DTW算法就是要寻找一个最佳的时间规整函数,使得声音输入的A的时间轴m映射到参考模版B的时间轴n的总的累积失真越小, 表示A、 B越接近。 3.2.5 音频压缩音频压缩 采用 ADPCM 自适应差分编码调制。该压缩编码包括自适应量化和自适应预测两种形式,主要用于对中等质量的音频信号进行高质量的压缩。在实际编码中,根据信息的特性,以实际值与预测值的均方差最小为原则,自适应地选择其中一组固定的预测参数进行编码。本文设计的 ADPCM 编码器是在基于 FPGA 的 DSP
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号