[2017年整理]无线传感器海量数据处理-

WSN 海量数据处理读书报告杨立摘要：目前对无线传感器网络中的海量数据处理的研究大致分为基于海量数据的研究、基于数据处理的研究以及最终的分类识别。在数据处理层面，人们主要的研究方向是对数据的特征提取与选择，数据的融合技术。最终的分类识别着重关注对特征进行分类识别或对特征进行组合建模后分类识别以达到最终的判定。而在对无线传感器网络所产生的海量数据的研究中，人们主要对数据流与海量数据的存储做了深入细致的研究。本文通过对近年来 WSN 数据处理相关文献的研读对其海量数据处理的整个过程进行了一个系统的概述。关键词：特征提取与选择数据融合 WSN 流数据模式识别0 引言传感器网络中不论是传感器的数量还是类型都是多种多样的，它包括目标的探测、数据关联、跟踪识别、情况评估与预测几个层面。目前对无线传感器网络中的海量数据处理的研究大致分为基于海量数据的研究、基于数据处理的研究以及最终的分类识别。在数据处理层面，人们主要的研究方向是对数据的特征提取与选择，数据的融合技术。最终的分类识别着重关注对特征进行分类识别或对特征进行组合建模后分类识别以达到最终的判定。而在对无线传感器网络所产生的海量数据的研究中，人们主要对数据流与海量数据的存储做了深入细致的研究。1 数据处理在数据处理层面上主要分为两部分，首先是对数据进行特征的提取与选择。这里的特征是对于不同信号来说的。在无线传感器网络中，其各类传感器所产生的信号类型也是多种多样的。因此对不同类型的信号分别进行特征的提取与选择就显得尤为重要了。其分析了各种特征的有效性并选出最有代表性的特征。这些特征有效地降低了特征空间的维度。其次是对数据的融合，无线传感器网络信息采集的过程中，会产生大量的冗余信息。为了使大量的通信带宽和宝贵的能量资源得以节省，数据融合技术就显得尤为重要了。1.1 特征的提取与选择特征的提取与选择直接面向目标信号本身，是信息感知的第一步也是至关重要的一部。特征选择的适当与否直接影响到整个信息处理系统的设计复杂度，并决定了系统的准确性。1.1.1 特征提取特征提取，即在原始特征中挑出一些有代表性分类性能最好的特征。特征提取的方法有很多,总结起来可以归为四大类：基于基本统计方法的特征提取,基于模型的特征提取,基于变换的特征提取基于分形、维数的特征提取。通过这些特征提取后的特征矢量能够达到较好的分类效果。文献1中介绍了一种基于小波包分析的拉索损伤声发射信号特征提取方法，采用 ANSYSKSDYNA模拟得到拉索损伤声发射信号的仿真信号，从小波包分解层次、特征频带数量的选择及特征参数的噪声鲁棒性三个方面开展了讨论分析。小波包能量谱的特征参数具有较强的损伤类型敏感性及噪声鲁棒性，当选取合适的小波包分解层次时，可以在强噪声影响下实现对拉索不同损伤类型的判别。对于非平稳性、非线性过程的信号处理，文献2中提出一种基于经验模态分解的目标特征提取与选择方法，可以自适应地将信号的局部特征逐级分解出来。将本征模态函数 IMF 分量及其瞬时频率作为特征,并选择其判别熵作为特征向量的可分性度量。与小波变换相比 IMF 不需要预先设定基函数，可根据信号自身的特征进行分解，具有自适应性，所得的本征模态分量突出了数据的局部特征，非常适用于非平稳性 G 非线性过程的信号处理中。文献3中提出了使用功率谱二次处理对地震信号进行特征提取的方法。将经典的语音特征处理算法根据地震信号的特点进行有针对性的改进，通过对信号的功率谱进行二次处理, 实现了对信号功率谱及频率的同时检测。文献4提出了利用最大熵ARBurg功率谱估计法对进入无线传感器网络区域中的车辆信号进行谱特征提取，具有很强的可操操作性、可重复性和参考性。文献5 针对探地雷达的回波信号具有非平稳特征为实现非平稳信号的检测和分类采用了二进小波变换主分量分析与Fisher 线性判别分析和前馈多层感知器分类器分别对探地雷达回波信号进行小波分解去相关与特征选择和分类，其克服了基于Fourier 变换的分析方法对非平稳信号进行特征提取时会平滑了非平稳信号的局部特征从而导致其分类效果不佳的缺点，取得了一定的效果。文献6在研究地面目标声震信号识别过程中提出基于局域判别(Local Discriminant Bases，LDB)算法的特征提取方法。并且，针对现有的基于时频能量图的可分性测度的缺点，提出新的基于概率密度估计的相对微分熵的可分性测度在一定程度上提高了目标的正确识别率，降低了特征维数。文献7在研究应用最优小波包变换的特征提取方法的过程中提出了应用三种可分性准则，即距离准则，散度准则和熵准则选择最优基。三种可分性准则比较而言，距离准则简单直观，散度准则更适用于正态分布模式，当模式类别具有同样的均值时可使用熵准则，并且使用这些准则只需根据训练样本集计算模式的两个重要统计量，即均值和方差.但为获得较稳定的特征，需较大的训练样本集。1.1.2 特征选择特征选择就是通过消除冗余、不相关及被噪声污染的特征，从而达到降低特征空间维数的目的。它实际上就是从一个原始的特征集合中选取一个特征子集的过程。有时是采用某种变换技术，得出数目比原来少的综合性特征用于分类，这称为特征维数压缩。特征选择的过程如图 1 所示，首先从原始特征集合中选出一个特征子集，然后通过评价函数对其进行评价，若满足特征子集停止迭代的要求即停止，否则产生新的特征子集继续迭代。特征的选择主要分为两个方面，一是特征选择的标准，二是特征子集的选择算法。发图 1 特征选择的过程特征选择标准的作用实际上是对特征子向量好坏做一个界定。可分为滤波器型（Filter）、封装型（Wrapper）、和混合型（Hybrid）。滤波器型一般用特征子集的内在特性来评估特征的好坏，如距离测度、相关性测度及一致性测度等。封装型实质上是一个分类器，封装器用选取的特征子集对样本集进行分类，分类的精度作为衡量特征子集好坏的标准。而混合型算法则是滤波器型和封装型的叠加。按照搜索方式的不同，特征选择算法可分为完全搜索、序列搜索以及随机搜索三类。基于完全搜索的特征选择算法能保证找到最有的特征子集，但其计算十分复杂，很少应用于实际工程中。基于序列搜索的特征选择算法拥有最小的计算复杂度，对于搜索空间中只有单一极值的最优问题效果理想，而对多极值问题容易陷入局部最优点。随机搜索的复杂度介于前两者之间，且随机搜索有助于摆脱局部最优点，目前应用最广泛。1.2 数据融合技术由于大多数无线传感器网络应用都是由大量传感器节点构成的，共同完成信息收集、目标监视和感知环境的任务。因此，在信息采集的过程中，采用各个节点单独传输数据到汇聚节点的方法显然是不合适的。因为网络存在大量冗余信息，这样会浪费大量的通信带宽和宝贵的能量资源。此外，还会降低信息的收集效率，影响信息采集的及时性。为避免上述问题，人们采用了一种称为数据融合（或称为数据汇聚）的技术。所谓数据融合是指将多份数据或信息进行处理，组合出更高效、更符合用户需求的数据的过程。在大多数无线传感器网络应用当中，许多时候只关心监测结果，并不需要收到大量原始数据，数据融合是处理该类问题的有效手段。数据融合技术涉及到检测技术、模式识别、决策论、不确定性理论、估计理论、最优化理论等众多学科领域。1.2.1 WSNs 数据融合结构目前对于无线传感器网络信息融合结构的分类还没有一个明确的标准。文献8中给出了一个基于信息表征层次的划分，将其分为数据级融合、特征级融合、以及决策级融合。数据级融合，就是直接到采集的原始数据层上进行融合。如图 2，这种融合的主要优点是原始信息丰富。但其所要处理的传感器数据量巨大，处理代价高。数据级融合的主要方法有：HIS 变换、PCA 变换、小波变换等。特征级融合属于中间层次，它首先对来自传感器的原始信息进行特征提取，然后对特征信息进行综合分析和处理。如图 3 所示，其实现了可观的信息压缩，有利于实时处理，能最大限度地给出决策分析所需要的特征信息。目前大多数 C3I 系统的数据融合研究都是在该层次上展开的。特征级融合的方法有：DempsterSharer 推理法(DS 方法)、表决法、神经网络法等。决策级融合是一种高层次的融合，其结果可为指挥控制与决策提供依据。如图 4 所示，决策级融合是三级融合的最终结果，是直针对具体决策目标的融合结果直接影响决策水平。目前，决策级数据融合方法主要有：贝叶斯估计法、专家系统、神经网络法、模糊集理论、可靠性理论以及逻辑模板法等。图 2 数据级融合图 3 特征级融合图 4 决策级融合文献7中将数据融合层次结构分为网络层的数据融合、应用层的数据融合、独立的数据融合层。其中网络层的数据融合，WSN网络层的数据融合主要采用以数据为中心的路由协议。优点是：数据融合在路由过程中实现，可以有效减少传输能耗和时延；问题是：跨协议层理解应用层数据的语义，会增大网络层的数据融合计算量。应用层的数据融合，基于查询模式的数据融合算法是应用层数据融合的研究方向，其算法思想是将WSN看作是一个分布式的数据库，采用分布式数据库技术来收集数据，应用层接口与SQL相似。独立的数据融合层，对多个数据包进行合并，减少数据封装头部开销和MAC层的数据发送冲突来节省能耗。独立的数据融合不能最大化网络的生存时间，只是利用了数据融合减小MAC层的拥塞冲突。因此，独立的数据融合技术应用还不是很广泛。1.2.2 数据融合方法分类及研究现状根据不同的融合规则，可分为不同的类型，例如有损融合、无损融合、依赖于应用的数据融合、独立于应用的数据融合、基于分布式数据库的数据融合3、基于中心的数据融合等。下面从如何有效降低数据传输量和能量方面对WSN中现有的数据融合方法进行分类，介绍其研究进展情况。（1）、基于生成树的数据融合在WSN中，汇聚节点在收集数据时，是通过反向组播树的形式从分散的传感器节点逐步将监测数据汇集起来的。从而达到减少网络拥塞，降低能耗，减轻监测延时，增加数据包传送速率的目的。现有的基于生成树的数据融合算法采用的主要是近源汇集(center at nearest source，CNS)、最短路径树(shortestpaths tree，SPT)、贪婪增量树(greedy incremental tree，GIT)，以及对它们进行的改进算法。基于生成树的数据融合方法虽然能够实现对传输的数据进行融合的功能，但是有些问题仍需关注。首先是生成树的构建和融合时机的确定问Steiner树比较适合事件驱动的应用。另外，基于WSN的特点，有效的数据融合生成树的构造算法应该具有时间复杂度低以及分布式的特点。其次，应该考虑数据融合生成树的维护问题。当节点失效时，需要对生成树进行维护。生成树的维护可采用周期性更新和事件触发两种方式。其实，这个问题就是如何平衡网络能量消耗。而且，维护这些数据融合结构的能耗开销应尽可能小。（2）、基于时空相关性的WSN数据融合在WSN中，同一地点布置了许多传感器，这些传感器之间的相对距离较近，其观察值在时间和空间上存在相关性，导致数据冗余现象。因此，如何消除多传感器间的时空相关性。以降低网络传输数据及节省网络能量和开销，值得研究。时间和空间上的这种相关性也是设计数据融合方法的主要依据。目前现有的文献对时空相关性的WSN数据融合的研究大致分为两类，一种是时间或空间融合模型，另一种是时间和空间相结合的融合模型。典型的时间融合模型是TiNA(temporal coherency-aware in-network aggregation)7，它利用传感器节点采集数据的时间一致性进行网内融合。其基本思想是，只有当前采集的数据与上一次采集的数据的差值大于某个用户指定的容忍限度时，节点才进行数据发送。这种方法对于监测数据波动较小的应用十分有效，能够显著地减少网络中的数据传输量。然而，当监测数据波动较大时，TiNA的作用就不是非常明显了；而且TiNA对于节点存储空间的要求比较高，尤其当网络规模较大时，转发节点需要保存