数据库技术的发展趋势-

-数据库技术领域的开展趋势目录一、泛数据研究的时代1二、国际数据库研究界动态2三、主流技术开展趋势43.1 信息集成43.2 数据流管理63.3 传感器数据库技术83.4 *ML数据管理103.5 网格数据管理123.6 DBMS 的自适应管理143.7 移动数据管理153.8 微小型数据库技术173.9 数据库用户界面184 完毕语19一、泛数据研究的时代数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论根底、成熟的商业产品和广泛的应用领域,吸引了越来越多的研究者参加,使得数据库成为一个研究者众多且被广泛关注的研究领域.随着信息管理容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战.面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半构造化模型等),同时也提出了众多新的数据库技术(*ML 数据管理、数据流管理、Web 数据集成、数据挖掘等).回忆数据库开展之初,数据模型是制约数据库系统的关键因素.E.F Codd 博士(1923-2003)提出的关系模型充分考虑了企业业务数据的特点,从现实问题出发,为数据库建立了一个坚实的数学根底.在整个计算机软件领域,恐怕难以找到第2 个像关系模型这样,概念如此简单,但却能带来如此巨大市场价值的技术.关系模型在关系数据库理论根本成熟后,各大学、研究机构和各大公司在关系数据库管理系统(RDBMS)的实现和产品开发中,都遇到了一系列技术问题.主要是在数据库的规模愈来愈大,数据库的构造愈来愈复杂,又有愈来愈多的用户共享数据库的情况下,如何保障数据的完整性、平安性、并发性以及故障恢复的能力,它成为数据库产品是否能够进入实用并最终为用户承受的关键因素.Jim Gray 在解决这些重大技术问题,使RDBMS 成熟并顺利进入市场的过程中,发挥了关键作用.概括地说,解决上述问题的主要技术手段和方法是:把对数据库的操作划分为事务的根本单位,一个事务要么全做,要么全不做(即ll-or-nothing 原则);用户在对数据库发出操作请求时,需要对有关的不同数据加锁,防止不同用户的操作之间互相干扰;在事务运行过程中,采用日志记录事务的运行状态,以便发生故障时进展恢复;对数据库的任何更新都采用两阶段提交策略.以上方法及其他各种方法被总称为事务处理技术.E.F Codd 和Jim Gray 在关系模型和事务处理技术上的创造性思维和开拓性工作,使他们成为这一领域公认的权威,并于分别于1981 年和1998 年成为图灵奖获得者.在成熟的关系DBMS 产品行销于世之后,数据库的研究困惑于如下的问题:DBMS 本身的研究是不是已经没有问题了新的处理要求在哪里旗帜鲜明地提出这一思考的是VLDB2000 会议,会议的主题是Broadeningthe Database Field,会议的论文设置也截然分为两类,即core database technology和information systemsinfrastructures,表达了在对传统问题关注的同时,着力寻求信息系统创新途径中所存在的数据管理问题.而信息系统创新途径的根本前提是Web 时代的到来.于是,在Web 大背景下的各种数据管理问题成为人们关注的热点,我们不妨把它笼统地称为泛数据研究.所谓泛数据是相对原本人们所关注的企业业务数据而言的.这是Web 时代的到来带给人们的新问题.泛数据研究泛在两个方面:*-data: *ML data (*ML Databases), streaming data (Streaming Databases),*-puting: grid puting (Grid Databases), sensor network (Sensor atabases), P2P puting (P2Pdatabases), ubiquitous/pervasive puting Ubiquitous/Pervasive Databases),目前,泛数据研究的根本问题是它能否产生与关系模型和事务处理技术比肩的成果.泛数据深层次的问题何在泛数据对现有DBMS 体系构造变革的需要在哪里这一切需要我们深思熟虑,是研究数据库所不能回避的.本文基于这一想法,结合国际相关会议的情况,目前数据库研究领域中最热门的几个研究方向的开展现状、面临的问题和未来趋势.希望能给数据库研究者尤其是正在进入数据库研究领域的人员一些启发.本文讨论的问题只是数据库研究领域中的一局部,观点也可能存在偏颇之处,但我们相信分析和预测数据库开展动态的工作,对促进中国数据库技术的研究和应用水平的提高具有重要的意义.二、国际数据库研究界动态每隔几年,国际上一些资深的数据库专家就会聚集一堂,探讨数据库的研究现状、存在的问题和未来需要关注的新的技术焦点,其中包括:1989 年在Laguna Beach,Calif.,1990 年和1995 年在Palo Alto,Calif., Lagunita,1996 年在Cambridge,Mass.和1998 年在Asilomar,Calif.研讨会,2003 年的聚会在Lowell,Mass举行,共有25 位资深数据库学者参加.他们来自不同国家和地区,有着不同的研究兴趣,学者们就数据库研究的现状和将来的走向展开了深入的讨论,提出了一些重要的观点.与会的学者集中讨论了信息的存储、组织、管理和访问等问题.这些问题受新型应用、技术趋势、相关领域的协同工作和领域本身的技术变革所驱动.信息的本质和来源在不断变化,每个人都意识到Internet,Web,自然科学和电子商务是信息和信息处理的巨大源泉.同时,另一个巨大的信息源即将到来,即廉价的微型传感器技术使得大局部的物体可以实时上报它们的位置和状态.这类信息能支持对移动对象的状态和位置的监视等应用.伴随新的制约与时机,传感信息的处理将会引发许多新环境下的极有趣味的数据库问题.在应用领域,Internet 是目前主要的驱动力,特别是在支持跨企业的应用上.在历史上,应用都是企业部的,可以在一个行政领域进展完善的指定和优化.但是现在,大局部企业感兴趣的是如何与供给商和客户进展更密切的交流,以便提供更好的客户支持.这类应用从根本上说是跨企业的,需要平安和信息集成的有力工具.由此产生的新问题需要数据库研究人员去解决.越来越重要的另一个应用领域是自然科学,特别是物理科学、生物科学、保健科学和工程领域,这些领域产生了大量复杂的数据集,需要比现有的数据库产品更高级的数据库的支持.这些领域同样也需要信息集成机制的支持.除此之外,它们也需要对数据分析器产生的数据管道进展管理,需要对有序数据进展存储和查询(如时间序列、图像分析、网格计算和地理信息),需要世界围数据网格的集成.除了在信息管理领域我们遇到的这些挑战之外,在传统的DBMS 相关的问题上,诸如数据模型、访问方法、查询处理代数、并发控制、恢复、查询语言和DBMS 的用户界面等主题也面临着巨大的变化.这些问题过去已经得到充分研究,但是技术的开展不断改变其应用规则.比方,磁盘和RAM 容量的不断变大,存储每个比特数据的花费不断降低等.虽然访问次数和带宽也在不断提高,但是它们不像前者开展得那样快,不断变化的相比照率要求我们重新评估存储管理和查询处理代数.除此之外,处理器cache 的规模和层次的提高,也要求DBMS 算法能够适应cache 大小的变化.上述只是由于技术变迁诱导的根据新情况对原有算法重新评价的两个例子.另一个推动数据库研究开展的动力是相关技术的成熟.比方,在过去的几十年里,数据挖掘技术已经成为数据库系统重要的一个组成局部.Web 搜索引擎导致了信息检索的商品化,并需要和传统的数据库查询技术集成.许多人工智能领域的研究成果也和数据库技术融合起来,这些新的技术使得我们可以处理语音、自然语言,进展不确定性推理和机器学习等.Lowell 报告认为,我们注意到了许多新的应用,新的技术趋势以及和影响信息管理的相关领域的协作.整体上,这些都要求一个和现今我们所拥有的完全不同的信息管理架构,并需重新考虑信息存储、组织、管理和访问等方面的问题.三、主流技术开展趋势在这一局部中,我们从信息集成、数据流管理、传感器数据库技术、半构造化数据与*ML 数据管理、网格数据管理、DBMS 自适应管理、移动数据管理、微小型数据库、数据库用户界面等方面分别讨论目前数据库领域研究方向的开展现状、面临的问题和未来趋势.3.1 信息集成信息系统集成技术已经历了20 多年的开展过程,研究者已提出了很多信息集成的体系构造和实现方案,然而这些方法所研究的主要集成对象是传统的异构数据库系统.随着Internet 的飞速开展,网络迅速成为一种重要的信息传播和交换的手段,尤其是在Web 上,有着极其丰富的数据来源.如何获取Web 上的有用数据并加以综合利用,即构建Web 信息集成系统,成为一个引起广泛关注的研究领域.信息集成系统的方法可以分为:数据仓库方法和Wrapper/Mediator 方法.在数据仓库方法中,各数据源的数据按照需要的全局模式从各数据源抽取并转换,存储在数据仓库中.用户的查询就是对数据仓库中的数据进展查询.对于数据源数目不是很多的单个企业来说,该方法十分有效.但对目1825前出现的跨企业应用,数据源的数据抽取和转化要复杂得多,数据仓库的方法存在诸多不便.目前比较流行的建立信息集成系统的方法是Wrapper/Mediator 方法.该方法并不将各数据源的数据集中存放,而是通过Wrapper/Mediator 构造满足上层集成应用的需求.这种方法的核心是中介模式(mediatedschema).信息集成系统通过中介模式将各数据源的数据集成起来,而数据仍存储在局部数据源中,通过各数据源的包装器(wrapper)对数据进展转换使之符合中介模式.用户的查询基于中介模式,不必知道每个数据源的特点,中介器(mediator)将基于中介模式的查询转换为基于各局部数据源的模式查询,它的查询执行引擎再通过各数据源的包装器将结果抽取出来,最后由中介器将结果集成并返回给用户.Wrapper/Mediator 方法解决了数据的更新问题,从而弥补了数据仓库方法的缺乏.但是,由于各个数据源的包装器是要分别建立的,因此,Web 数据源的包装器建立问题又给人们提出了新的挑战.近年来,如何快速、高效地为Web 数据源建立包装器成为人们研究的热点.不过,这种框架构造正受到来自3 个方面的挑战.第1 个挑战是如何支持异构数据源之间的互操作性(interoperability).信息集成必须在多至数百万的信息源上穿梭进展,这些数据源的数据模型、模式、数据表现和查询接口各不一样.数据库界已经对联邦式的数据系统做了多年的研究,其中最早的报告针对这个问题做了广泛的讨论.然而,语义的相异性这个痛苦的问题依然存在.由不同人设计的任何两个模式都不会是一样的.它们会有不同的单位(例如工资,一种以欧元计算,而另一种以美元计算),不同的语义解释(也以工资为例,一种仅指档案工资,而另一种是指包含了各种津贴的总收入),对于一样的事务还会有不同的名字(对同一个人,可能一种用的是笔名,而另一种用的是原名,例如鲁迅和周树人).能够在网络标准上进展配置的语义相异性的解决方案依然是难以捉摸的.我们必须认真和集中地对待这个问题,否则跨企业的信息综合只会停留在梦想上.语义Web的上下文方面的研究也存在着一样的问题.吸收相关领域的研究成果对解决这一问题是很重要的.另一个挑战是如何模型化源数据容和用户查询.目前广泛采用的技术有两种.LAV(local-as-view)方法利用全局谓词集合描述多个数据源容视图和用户查询.当给定*用户查询时,中间件