资源预览内容
第1页 / 共51页
第2页 / 共51页
第3页 / 共51页
第4页 / 共51页
第5页 / 共51页
第6页 / 共51页
第7页 / 共51页
第8页 / 共51页
第9页 / 共51页
第10页 / 共51页
亲,该文档总共51页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
云数据管理技术与挑战Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望主要内容2 云计算与云数据管理概述云计算与云数据管理概述 各大公司的云数据管理技术各大公司的云数据管理技术 人民大学研究团队的工作人民大学研究团队的工作 云数据管理的研究挑战云数据管理的研究挑战 云数据管理的新思维云数据管理准则 (1) Partition Everything and key-value storage 切分万物以治之切分万物以治之数据库的第一范式无法满足云数据管理准则 (2) Embrace Inconsistency 容不同乃成大同容不同乃成大同数据库的ACID的属性无法满足云数据管理准则 (3) Backup everything with three copies 狡兔三窟方高枕狡兔三窟方高枕 每个数据都有三个备份,达到 99.999999%的保障度云数据管理准则 (4) Scalable and high performance运筹沧海量兼容运筹沧海量兼容 提供一个可伸缩的,处理和分析海量数据的平台拨云见日切分万物以治之切分万物以治之容不同乃成大同容不同乃成大同狡兔三窟方高枕狡兔三窟方高枕运筹沧海量兼容运筹沧海量兼容主要内容11 云计算与云数据管理概述云计算与云数据管理概述 各大公司的云数据管理技术各大公司的云数据管理技术 人民大学研究团队的工作人民大学研究团队的工作 云数据管理的研究挑战云数据管理的研究挑战主要内容Google 文件系统(GFS)适用于大规模数据密集型应用程序的可扩展分布式文件系统多个部署GFS的集群已经建成目前最大的集群为:10000多个存储节点300+PB的存储容量可供不同机器上的上百用户同时读取介绍:观察1控件的故障时常发生系统集成了实时监控、错误检测、容错性和自动恢复等功能超大文件(与普通文件相比)GB大小的文件很正常介绍:观察2大部分文件修改都是添加新的内容需要考虑优化性能和保证原子性协同设计应用程序和API有利于增加整个系统的灵活性设计集群包含一个master和多个chunkservers,并且可供多个用户读取GAE Web应用GAE Web服务基础设施分布式存储服务应用程序运行时环境应用开发套件管理控制台Google App Engine分布式存储服务GAE提供的分布式存储服务基于BigTable技术通过Java JDO/JPA接口或Python数据库标准接口访问和操作数据库优势:成本低、支持伸缩、并发性好、易管理采用乐观的并发控制应用程序运行时环境GAE的应用程序运行时环境是一个可伸缩的Web程序运行平台目前支持Python和Java可以使用Google提供的丰富的应用服务,如分布式存储服务、网页抓取、邮件、图像、Google账户等云端应用Google Docs是基于Web的文字处理和电子表格程序,支持在线协作、文档恢复、文档检索Gmail是有效的电子邮件工具,支持即时消息、视频聊天、会话检索等IBM EnsemblesIBM TSAMIBM WebSphere CloudBurstIBM LotusLiveIBM RC2云环境管理解决方案IBM TSAMIBM Tivoli Service Automation Manager(TSAM)管理应用服务生命周期的方案IBM WebSphere CloudBurstIBM WebSphere CloudBurst Application(WCA)帮助用户创建和管理面向服务的私有云平台有效整合了云基础设施层和云平台层Web控制台基础设施管理虚拟化解决方案部署用户合格组管理虚拟器件镜像模板管理监控、审计和计费脚本包管理数据中心资源管理CRM系统ERP系统网上银行WebSphere Application ServerWebSphere ProcessServerWebSphere PorialDB2数据中心管理员应用系统SOA环境WebSphere Cloudburst ApplianceIBM LotusLive通过Web方式交付的服务会议服务LotusLive MeetingsLotusLive Events办公协作服务LotusLive EngageLotusLive Connections电子邮件服务LotusLive NotesIBM RC2IBM Research Compute Cloud东京北京新德里海法苏黎世纽约奥斯丁阿尔玛登Amazon Web ServiceAmazon S3Amazon EC2Amazon SimpleDBAmazon SQSAmazon S3Amazon Simple Storage Service(S3)云计算平台提供的可靠的网络存储服务通过互联网访问和管理安全性账户认证访问控制列表查询字符串认证可靠性冗余备份的存储机制Amazon SimpleDBAmazon SimpleDB是一种支持结构化数据存储和查询操作的轻量级数据库服务存储模型:域(Domain)、项(Item)、属性(Attribute)现有不足延迟较大不能保证顺序执行用户更新与关系型数据库兼容有限Amazon EC2Amazon EC2是一种云基础设施服务用户根据业务的需求自由地申请或者终止资源使用优势可伸缩性节省成本使用灵活安全可靠容错基础服务数据库服务应用开发服务应用打包服务基础服务Force.com基础服务为上层服务和应用提供了安全、可靠的支撑环境三个关键技术多租户元数据安全架构数据库服务Force.com数据库服务数据模型数据对象持久化采用关系属性定义数据对象间的关系数据操作Web页面接口编程接口访问控制管理安全记录安全Windows Azure.NET服务SQL AzureLive服务Microsoft Windows AzureAzure Fabric 控制器存储服务计算服务开发环境Windows LiveOffice LiveExchangeOnlineSharePointOnlineDynamic CRMOnlineLive服务.NET服务SQL服务SharePoint服务Dynamic CRM服务应用Azure服务平台Windows AzureMicrosoft SQL Azure云环境的数据管理系统不支持CLR、空间数据及一些系统管理功能(如启动、停止SQL Server)优势无需对数据库进行定期备份提供统一数据访问接口提供更健壮的服务主要内容36 云计算与云数据管理概述云计算与云数据管理概述 各大公司的云数据管理技术各大公司的云数据管理技术 人民大学研究团队的部分工作人民大学研究团队的部分工作 云数据管理的研究挑战云数据管理的研究挑战人大阿里巴巴 云项目简介:由人大多个学院和教授共同合作针对淘宝阿里巴巴海量的交易数据进行分析和挖掘研究任务适合研究任务:宏观经济指数分析-参照人大三大发布项目开发指数平台,集成多种统计算法模型,提供横向对比分析设计周期性自动指数计算系统,可以按月、周、天自动计算指数,发布类似K线图的动态指数38人民大学新开的分布式系统与云计算课程 (2010年教育部IBM精品课程)39 分布式系统概述分布式系统概述分布式云计算技术综述分布式云计算技术综述分布式云计算平台分布式云计算平台分布式云计算程序开发分布式云计算程序开发已编写教材介绍分布式系统及云计算概论清华大学出版社Hadoop实战机械工业出版社Coming soon课程网站网址:datasearch.ruc.edu.cn/xnh下载教学课件下载模拟试卷观看课程视频获取课程内容主要内容42 云计算与云数据管理概述云计算与云数据管理概述 各大公司的云数据管理技术各大公司的云数据管理技术 人民大学研究团队的工作人民大学研究团队的工作 云数据管理的研究挑战云数据管理的研究挑战基于云上的数据管理的特点计算资源是可伸缩的数据具有备份数据存储在大量分布的结点之上基于云上的数据管理的挑战(一)数据的自我管理和自调优基于云上的数据管理的挑战(二)基于大量节点的查询优化算法基于大量节点的索引结构基于云上的数据管理的挑战(三)资源调度和负载均衡多租户情况中总结47海量数据管理:新的挑战和机遇;海量数据管理:新的挑战和机遇; 企业和学企业和学术界共同面对的课题术界共同面对的课题云数据管理技术方兴未艾云数据管理技术方兴未艾国产数据库企业发展的一个新的机遇和挑战国产数据库企业发展的一个新的机遇和挑战Further ReadingF. Chang et al. Bigtable: A distributed storage system for structured data. In OSDI, 2006. J. Dean and S. Ghemawat. MapReduce: Simplified data processing on large clusters. In OSDI, 2004. G. DeCandia et al. Dynamo: Amazons highly available key-value store. In SOSP, 2007. S. Ghemawat, H. Gobioff, and S.-T. Leung. The Google File System. In Proc. SOSP, 2003. D. Kossmann. The state of the art in distributed query processing. ACM Computing Surveys, 32(4):422469, 2000. Further ReadingEfficient Bulk Insertion into a Distributed Ordered Table (SIGMOD 2008)Adam Silberstein, Brian Cooper, Utkarsh Srivastava, Erik Vee, Ramana Yerneni, Raghu Ramakrishnan PNUTS: Yahoo!s Hosted Data Serving Platform (VLDB 2008)Brian Cooper, Raghu Ramakrishnan, Utkarsh Srivastava, Adam Silberstein, Phil Bohannon, Hans-Arno Jacobsen, Nick Puz, Daniel Weaver, Ramana YerneniAsynchronous View Maintenance for VLSD Databases,Parag Agrawal, Adam Silberstein, Brian F. Cooper, Utkarsh Srivastava and Raghu RamakrishnanSIGMOD 2009 Cloud Storage Design in a PNUTShellBrian F. Cooper, Raghu Ramakrishnan, and Utkarsh SrivastavaBeautiful Data, OReilly Media, 2009 Further ReadingF. Chang et al. Bigtable: A distributed storage system for structured data. In OSDI, 2006. J. Dean and S. Ghemawat. MapReduce: Simplified data processing on large clusters. In OSDI, 2004. G. DeCandia et al. Dynamo: Amazons highly available key-value store. In SOSP, 2007. S. Ghemawat, H. Gobioff, and S.-T. Leung. The Google File System. In Proc. SOSP, 2003. D. Kossmann. The state of the art in distributed query processing. ACM Computing Surveys, 32(4):422469, 2000. 谢谢!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号