资源预览内容
第1页 / 共54页
第2页 / 共54页
第3页 / 共54页
第4页 / 共54页
第5页 / 共54页
第6页 / 共54页
第7页 / 共54页
第8页 / 共54页
第9页 / 共54页
第10页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据存储及解决方案数据存储及解决方案华中科技大学信息存储系统武汉 430074 三种基本的信息操作 处理处理 传输传输 存储存储基本定义l处理:对信息进行变化和加工处理:对信息进行变化和加工l传输:信息跨越空间的传播传输:信息跨越空间的传播l存储:信息跨越时间的传播存储:信息跨越时间的传播 存储是信息技术的三大基石之一存储是信息技术的三大基石之一 (被我国忽略的领域)(被我国忽略的领域)对人类文明的重要性l处理:产生知识处理:产生知识l通讯:传播知识通讯:传播知识l存储:积累知识存储:积累知识 数字信息学的数字信息学的科学基础(力学:牛顿定律)(电学:麦克斯韦方程)(数字信息学:?)最基本的理论:图灵机l希尔伯特问:希尔伯特问: 存不存在一个解决所有数学问题的一般算法?存不存在一个解决所有数学问题的一般算法?l图灵答道:有!图灵答道:有!l图灵理论的俗解:图灵理论的俗解:l如果不考虑时间,只要按某种规律对如果不考虑时间,只要按某种规律对bitbit进行处理、传输、进行处理、传输、存储三种简单操作,就能在理论上解决任何数学计算问存储三种简单操作,就能在理论上解决任何数学计算问题!题!l图灵机模型主要是针对计算的,但存储和通讯隐含在其中图灵机模型主要是针对计算的,但存储和通讯隐含在其中l这个理论指明了这个理论指明了bitbit的强大功能,也包含了计算机的设计的强大功能,也包含了计算机的设计思想思想第二层的理论:信息论第二层的理论:信息论关于信息时空传播的理论关于信息时空传播的理论l在通讯和存储两个领域工作过的人都会发现,他们涉在通讯和存储两个领域工作过的人都会发现,他们涉及的问题竟然如此类似及的问题竟然如此类似l通讯的编码理论完全可以用于存储通讯的编码理论完全可以用于存储l通讯:信源编码,信道编码通讯:信源编码,信道编码l存储:纠错编码,调制编码,存储:纠错编码,调制编码, 磁盘阵列的容错原理磁盘阵列的容错原理l加密理论、信息的压缩原理对通讯和存储是一样的加密理论、信息的压缩原理对通讯和存储是一样的l本质的道理:通讯和存储都是信息的传播,差别在于:本质的道理:通讯和存储都是信息的传播,差别在于:一个跨越空间,一个跨越时间一个跨越空间,一个跨越时间l原来信息论适用于信息的传播!在空间和时间原来信息论适用于信息的传播!在空间和时间上,他们遵从一样的原理!上,他们遵从一样的原理!三位一体的数字信息学理论三位一体的数字信息学理论l图灵机主要是针对计算的,但隐含了通图灵机主要是针对计算的,但隐含了通讯和存储讯和存储l信息论主要是针对通讯和存储的,但隐信息论主要是针对通讯和存储的,但隐含了计算含了计算l处理、传输、存储在理论上是三位一体处理、传输、存储在理论上是三位一体的,缺一不可的,缺一不可l上述理论解决了数字信息学的全部?上述理论解决了数字信息学的全部?NO!硬件发展的6个规律l1 MooreMoore定律:微处理器内晶体管数每十八个月翻定律:微处理器内晶体管数每十八个月翻一番;一番;l2 2 BellBell定定律律:如如果果保保持持计计算算能能力力不不变变,微微处处理理器器的价格每十八个月减少一半;的价格每十八个月减少一半;l3 3 GilderGilder定定律律:未未来来2525年年(19961996年年与与预预言言)里里,主干网的带宽将每主干网的带宽将每6 6个月增加一倍;个月增加一倍;l4 4 MetcalfeMetcalfe定定律律:网网络络价价值值同同网网络络用用户户数数的的平平方方成正比。成正比。 5.5.半半导导体体存存储储器器发发展展规规律律:DRAMDRAM的的密密度度每每年年增增加加60%60%,每三年翻四倍。,每三年翻四倍。l6 6。硬盘存储技术发展规律:硬盘的密度每年增加约一。硬盘存储技术发展规律:硬盘的密度每年增加约一倍倍后PC时代的计算-普适计算Pervasive Computingl后PC时代计算机发展的特点:l1. 无所不在的含有l智能的小装置;l2. 支持服务的后台l服务器和巨型计算机对应于后对应于后PC时代时代两极分化的存储两极分化的存储l移动存储:移动存储:Flash, 微硬盘,微光盘微硬盘,微光盘l企业级海量存储企业级海量存储数据存储的基本问题当一切信息都转换为数字,问题就产生了典型的存储容量需求挑战典型的存储容量需求挑战网站多媒体网站多媒体网站多媒体网站多媒体, ,XonDemandXonDemand数字化数字化数字化数字化XXXX: :数字化流域,数字化流域,数字化流域,数字化流域,数字化城市,数字化地球数字化城市,数字化地球数字化城市,数字化地球数字化城市,数字化地球.电子商务电子商务电子商务电子商务虚拟现实虚拟现实虚拟现实虚拟现实人类基因库人类基因库人类基因库人类基因库从现在起的从现在起的从现在起的从现在起的1818个月内个月内个月内个月内, ,新的存储量等于有史以来老新的存储量等于有史以来老新的存储量等于有史以来老新的存储量等于有史以来老的存储量之和的存储量之和的存储量之和的存储量之和! !19981998年图灵奖获得者年图灵奖获得者年图灵奖获得者年图灵奖获得者JimGrayJimGray容量问题和新摩尔定理从现在起,每从现在起,每1818个月个月, ,新增新增的存储量等于有史以来存的存储量等于有史以来存储量之和储量之和! !19981998年图灵奖获得者年图灵奖获得者年图灵奖获得者年图灵奖获得者JimGrayJimGrayWirelessOnline VideoE-CommerceCustomer Mgmt.D A T AData AnalysisEnterpriseApplicationsClient/Server70s80s90s00s10sBasic AccountingExplosion inExplosion inData VolumesData Volumes数据信息爆炸式增长数据信息爆炸式增长存储的前沿l半导体存储:RAM, ROM, FLASH 的高速发展l目前硬盘存储:l100GBl2万转/分l实验室水平:l一道一GPCPC机的主流硬盘机的主流硬盘容量增加容量增加8,0008,000倍倍10MB100MB500MB4GB10GB80GB 第一爆发点:单机多媒体第一爆发点:单机多媒体第二爆发点:第二爆发点:Internet 第三爆发点第三爆发点:宽带宽带(目前)目前) 第四爆发点:第四爆发点: 空间影像和虚拟现实普遍应用空间影像和虚拟现实普遍应用 空间影像另一种模式:不断的增长即即使使处处理理、传传输输能能力力固固定定不不变变,随随着着数数据据不不断断产产生生,存存储储能能力力也也需需要要动动态态单单调调地地增加。(水泵、水管、水桶的比喻)增加。(水泵、水管、水桶的比喻) 处处理理和和传传输输速速度度越越高高,容容量量的的增增加加的的梯梯度度就就越越高高,这这就就是是存存储储系系统统的的不不断断扩扩展展特性。特性。结论:结论: 无限的容量需求和动态扩展需求无限的容量需求和动态扩展需求容量问题的解决途径容量问题的解决途径1. 减小减小bit位元尺度,提高密度位元尺度,提高密度 采用各种物理原理和现象减小位元采用各种物理原理和现象减小位元 磁磁(翻转尺寸)、(翻转尺寸)、光光(光点大小)、光点大小)、电电(线宽)、(线宽)、生物生物、量子量子 密度:道密度、面密度、体密度密度:道密度、面密度、体密度2. 建立存储系统,用建立存储系统,用“砖头砖头”构造构造“大厦大厦”单个硬盘的技术进展的进展l硬盘硬盘是最重要的大容量存储设备,是最重要的大容量存储设备,50年年代由代由IBM发明以来密度增加了发明以来密度增加了1,000,000倍,到目前为止,还没有找到能与之倍,到目前为止,还没有找到能与之竞争的对手竞争的对手l最近的密度超过最近的密度超过100Gb/in2,主要技术:主要技术:超低飞行磁头超低飞行磁头10nm,加钌超稳定介质,加钌超稳定介质,PRML读通道,光磁混合纪录,垂直磁读通道,光磁混合纪录,垂直磁记录记录硬盘的进展硬盘的进展-密、快、小、廉密、快、小、廉硬盘的分类l1.用于服务器的硬盘:高容量、高速度l2.用于桌上机的硬盘:主流容量、速度、低价格l3.用于笔记本电脑的硬盘:小体积、低功耗l4.用于手持式设备的硬盘:l 微硬盘Microdrive四类硬盘的规格指标四类硬盘的规格指标不同尺寸的硬盘密度的进展密度与技术 IBM微硬盘 Microdrivel应用领域l移动计算l数码相机、数码摄像机磁头的进展可换式存储l软盘:1.44MB 顽强的生命力l高密度软盘:Zip 100/200MB(IOMAG)l LS-120(兼容1.44)l HiFD-200(兼容1.44)l磁光盘(MO):1.3GB/650MB/230MBlCD-R/W, DVD-RW, DVD-RAMl只读光盘:CD-ROM,DVD-ROM闪存(Flash memory)移动存储的新星l各种规格lSmartMedialCompactFlashlMemory Stick(SONY)lPCMCIA接口lUSB接口-Easedisk、l Netech光存储的进展 目前:目前:CD-ROM, DVD-ROM, DVD机机 DVD-RW(DVR) 最近要产品化的技术:向高密度进军最近要产品化的技术:向高密度进军 蓝光蓝光DVD, HD-DVD 多层多阶光存储多层多阶光存储 近场光存储近场光存储 全息光存储全息光存储 存储的前沿l半导体存储:RAM, ROM, FLASH 的高速发展l目前硬盘存储:l100GBl2万转/分l实验室水平:l一道一GPCPC机的主流硬盘机的主流硬盘容量增加容量增加8,0008,000倍倍10MB100MB500MB4GB10GB80GB存储系统用“砖头”构建的大厦l正如无论多快的正如无论多快的单处理器无法满单处理器无法满足超级计算的要足超级计算的要求一样,求一样,无论多无论多大的单个硬盘也大的单个硬盘也无法满足网络存无法满足网络存储和企业存储的储和企业存储的需要需要存储系统的技术发展思路存储系统的技术发展思路(处理与存储的对比)单处理器单处理器-多处理器多处理器-多计算机多计算机-网网格格硬盘硬盘- 阵列阵列-存储网存储网-数数据网格据网格由软件和硬件共同实现由软件和硬件共同实现磁盘阵列磁盘阵列(多个硬盘)(多个硬盘)容量、速度、可用性容量、速度、可用性Storage Area Networks(SAN)存域网结构图系统结构必须和软件相配合l存储虚拟化软件(单一逻辑映像)l存储资源管理软件(容量、级别,性能)l存储备份、数据迁移软件可靠性和可用性问题可靠性和可用性问题当关键信息转换为数据时,数据成为当关键信息转换为数据时,数据成为最宝贵的财富最宝贵的财富l对很多领域,数据是比硬件设备宝贵得对很多领域,数据是比硬件设备宝贵得多的资源多的资源: : 银行、电信、保险、电子商务、网站、银行、电信、保险、电子商务、网站、企业信息企业信息数数据物理安全据物理安全:存储最重要:存储最重要l处理部件、传输部件损坏:处理部件、传输部件损坏: 损失有限,损失有限, 更换可恢复更换可恢复l存储部件损坏:存储部件损坏: 数据丢失!巨大的损失!数据丢失!巨大的损失!两个亲身经历的例子:两个亲身经历的例子: 同济医院信息系统,广东石龙医院火灾同济医院信息系统,广东石龙医院火灾建筑行业一定有安全系数,建筑行业一定有安全系数,80%80%的信息系统的信息系统没有安全系数!没有安全系数!三种级别的可用性l1. 数据不丢失(最起码的要求)l2.系统不停机(724服务的保障)l3.性能不下降(优质服务的保障)解决可用性问题的典型途径: 冗余 (双机,网络RAID) 备份 (磁带、光盘、硬盘)解决可用性的新思路l具有耗散结构的存储系具有耗散结构的存储系统统l借鉴生物系统原理:心借鉴生物系统原理:心脏之所以保证数十年的脏之所以保证数十年的可用性,不是因为材料可用性,不是因为材料特别好,而是因为新陈特别好,而是因为新陈代谢代谢lUCBUCB的的ISTOREISTOREl华中科技大学的进化存华中科技大学的进化存储系统储系统DiskHalf-height canister性能问题性能问题:瓶颈的转移瓶颈的转移应用的转移应用的转移CPUCPU瓶颈瓶颈瓶颈瓶颈7070年代年代年代年代9090年代年代年代年代网络瓶颈网络瓶颈网络瓶颈网络瓶颈8080年代年代年代年代内存瓶颈内存瓶颈内存瓶颈内存瓶颈0000年代年代年代年代海量存储瓶颈海量存储瓶颈海量存储瓶颈海量存储瓶颈共享处理机共享处理机 共享存储器里的数据共享存储器里的数据Make the common case fast!网站的存储网站的存储:几十万用户同时点击到一个站点:几十万用户同时点击到一个站点去获得海量存储系统中的信息。去获得海量存储系统中的信息。WWW: world wide web 变为变为world wide wait解决性能问题的解决性能问题的8条途径条途径1.Cache 1.Cache 技术,技术,RAM-DISK, RAM-RAIDRAM-DISK, RAM-RAID RAID-TAPE(HSM) RAID-TAPE(HSM)2.2.高速高速I/OI/O通道通道:SCSI(160-320), FC(1-2-4G):SCSI(160-320), FC(1-2-4G) SATA(150-300), IP(1-10G) SATA(150-300), IP(1-10G)3. 3. 聚合带宽(并行技术):聚合带宽(并行技术): 多主机多主机- -单存储,单主机单存储,单主机- -多存储多存储4. 4. 改变工作方式:基于磁盘的系统,随机小写改变工作方式:基于磁盘的系统,随机小写与连续大写性能差与连续大写性能差100100倍,变小写为大写倍,变小写为大写5.5.提高协议效率:提高协议效率:FC FC vsvs iSCSIiSCSI6.6.采用就近原则采用就近原则7. PTP7. PTP对等存储原理对等存储原理8.8.第三方直接传输第三方直接传输解决性能问题的新思路l对现状的观察对现状的观察 (1 1)硬盘每年的容量和性能都在提)硬盘每年的容量和性能都在提高高 (2 2)现有的)现有的RAIDRAID系统,换了一个硬系统,换了一个硬盘之后整体性能没有提高盘之后整体性能没有提高 (3 3)越用性能越差)越用性能越差 管理复杂性问题管理复杂性问题l异构的存储系统异构的存储系统l规模越来越大规模越来越大l系统越来越难以管理,人为错误越来越系统越来越难以管理,人为错误越来越多多l管理成本越来越高,管理成本超过设备管理成本越来越高,管理成本超过设备成本成本管理复杂性的解决途径l原因原因:目前的存储设备都是被动的,对设备的:目前的存储设备都是被动的,对设备的管理都在上层进行,面对异构的多种存储设备管理都在上层进行,面对异构的多种存储设备和异构的互联网络,管理软件都要适应,造成和异构的互联网络,管理软件都要适应,造成复杂性日益增加复杂性日益增加l解决途径解决途径:基于对象的存储系统,主动存储:基于对象的存储系统,主动存储 CMUCMU提出提出OBD, SNIAOBD, SNIA提出标准提出标准 存储对象:包括数据和对数据的操作存储对象:包括数据和对数据的操作 管理下移,使存储设备包含更多的智能管理下移,使存储设备包含更多的智能 标准的对外接口和描述标准的对外接口和描述 管理大为简化管理大为简化数据生命周期问题l一切都存下来,不是一个好的办法l无限扩大容量,成本无谓增加l管理和保存无用的数据,是巨大的浪费l无用信息干扰当前信息存取的性能 解决途径:向大脑学习遗忘机制解决途径:向大脑学习遗忘机制 重要的信息深层记忆,不重要的浅层记重要的信息深层记忆,不重要的浅层记忆,无用的信息忘掉忆,无用的信息忘掉结论结论l处理、传输、存储是信息技术的三大基石处理、传输、存储是信息技术的三大基石l存储是信息跨越时间的传播存储是信息跨越时间的传播l只要对数字进行操作,就能解决一切信息问题只要对数字进行操作,就能解决一切信息问题l信息论是信息时空传播的共同理论基础信息论是信息时空传播的共同理论基础l硬件是数字操作机硬件是数字操作机(只有三种简单操作:处理、(只有三种简单操作:处理、存储、传输)存储、传输)l软件是思想和内容的数字化软件是思想和内容的数字化l 存储系统的基本问题有容量、可用性、性能、存储系统的基本问题有容量、可用性、性能、管理复杂性、数据生命周期等,它们都有各自管理复杂性、数据生命周期等,它们都有各自的解决途径的解决途径结束语lPCPC热热-网络热网络热-存储热,国际存储热,国际ITIT业的第三次热业的第三次热潮和淘金机会潮和淘金机会lITIT设施的投资花在存储系统上设施的投资花在存储系统上l我国的海量存储系统几乎全部进口我国的海量存储系统几乎全部进口l十年前的通讯市场和目前的存储市场十分相似十年前的通讯市场和目前的存储市场十分相似l谁是存储领域的联想、华为?谁是存储领域的联想、华为?l我国的标志性成果:我国的标志性成果: 1010万亿次超级计算机,万兆路由和交换,万亿次超级计算机,万兆路由和交换, 存储没有等量级的标志性成果存储没有等量级的标志性成果
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号