资源预览内容
第1页 / 共50页
第2页 / 共50页
第3页 / 共50页
第4页 / 共50页
第5页 / 共50页
第6页 / 共50页
第7页 / 共50页
第8页 / 共50页
第9页 / 共50页
第10页 / 共50页
亲,该文档总共50页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
电子工业出版社 刘鹏主编云计算教材配套课件3并行数据处理模型MapReduce摩尔定律 集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升 一倍 经验总结,12个月-18个月-24个月Gordon Moore“免费的性能大餐”? Andy giveth, and Bill taketh away 软件算法、数据结构似乎不再重要,因为处理器性能不断 提升免费的午餐已经结束!IntelMicrosoft摩尔定律正在走向终结 单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高 散热问题(发热太大,且难以驱散) 功耗太高未来的发展:多核在多核时代生存,必须考虑并发问题不存在解决多核编程问题的银弹, 不存在可以简单地将并发编程问题化 解掉的工具, 开发高性能的并行程序 必须要求开发者从根本上改变其编程 方法从某种意义上来说,这不仅仅是要改 变50年来顺序程序设计的工艺传统, 而且是要改变数百万年来人类顺序化思考问题的习 惯Herb Sutter串行编程 早期的计算里,程序一般是被串行执行的 程序是指令的序列,在单处理器的机器里,程序从开始 到结束,这些指令一条接一条的执行并行编程 一道处理可以被划分为几部分,然后它们可以并发地执行 各部分的指令分别在不同的CPU上同时运行,这些CPU 可以存在于单台机器中,也可以存在于多台机器上,它们 通过连接起来共同运作什么样的问题适合并行计算? 斐波那契序列(Fibonacci)的计算?什么样的问题适合并行计算? 如果有大量结构一致的数据要处理,且数据可以分解成 相同大小的部分, 那我们就可以设法使这道处理变成并 行并行计算模式并行计算与分布式计算有何联系 与区别?Google拥有海量数据,并且需要快速处理对爬虫获取的网页进行倒排索引 计算网站的PageRank 分析搜索趋势(Google Trends) 计算网页的访问量 美国总统奥巴马“Greatness is never a given, it Must be earned.”计算问题简单,但求解困难 待处理数据量巨大(PB级),只有分布在成百上千个节点 上并行计算才能在可接受的时间内完成 如何进行并行分布式计算? 如何分发待处理数据? 如何处理分布式计算中的错误?简单的问题,计算并不简单!Google MapReduce 架构设计师 Jeffrey DeanJeffery Dean设计一个新的 抽象模型, 使我们只要执行 的简单计算,而将并行化、 容错、数据分布、负载均衡 的等杂乱细节放在一个库里 ,使并行编程时不必关心它 们 这就是MapReduce一个软件架构,是一种处理海量数据的并行编程模 式用于大规模数据集(通常大于1TB)的并行运算MapReduce实现了Map和Reduce两个功能 Map把一个函数应用于集合中的所有成员,然后返回一个 基于这个处理的结果集 Reduce对结果集进行分类和归纳 Map()和 Reduce() 两个函数可能会并行运行,即使不是 在同一的系统的同一时刻案例:单词记数问题(Word Count) 给定一个巨大的文本(如1TB),如何计算单词出现的数 目?使用MapReduce求解该问题 定义Map和Reduce函数使用MapReduce求解该问题 Step 1: 自动对文本进行分割使用MapReduce求解该问题 Step 2:在分割之后的每一对进行用户定义 的Map进行处理,再生成新的对使用MapReduce求解该问题 Step 3:对输出的结果集归拢、排序(系统自动完成)使用MapReduce求解该问题 Step 4:通过Reduce操作生成最后结果1、处理流程 2、分片方式源文件:GFSMap处理结果:本地存储Reduce处理结果:GFS日志:GFSGoogle MapReduce计算架构有 什么问题?Worker故障 Master 周期性的ping每个worker。如果master在一 个确定的时间段内没有收到worker返回的信息,那么它 将把这个worker标记成失效 重新执行该节点上已经执行或尚未执行的Map任务 重新执行该节点上未完成的Reduce任务,已完成的不 再执行Master故障 定期写入检查点数据 从检查点恢复WHY?任务备份机制 慢的workers 会严重地拖延整个执行完成的时间 由于其他的任务占用了资源 磁盘损坏 解决方案: 在临近结束的时候,启动多个进程来执行尚未 完成的任务 谁先完成,就算谁 可以十分显著地提高执行效率本地处理 Master 调度策略: 向GFS询问获得输入文件blocks副本的位置信息 Map tasks 的输入数据通常按 64MB来划分 (GFS block 大小 ) 按照blocks所在的机器或机器所在机架的范围 进行调度 效果 绝大部分机器从本地读取文件作为输入,节省大量带宽跳过有问题的记录 一些特定的输入数据常导致Map/Reduce无法运行 最好的解决方法是调试或者修改 不一定可行 可能需要第三方库或源码 在每个worker里运行一个信号处理程序,捕获map或 reduce任务崩溃时发出的信号,一旦捕获,就会向master 报告,同时报告输入记录的编号信息。如果master看到一 条记录有两次崩溃信息,那么就会对该记录进行标记,下 次运行的时候,跳过该记录实践证明,MapReduce是出色的分布式计算模型 Google宣布,其对分布于1000台计算机上的1TB数据进 行排序仅仅需要68s 对4000台计算机上的1PB数据进行排序处理仅需要6小时 2分钟(每次测试至少会损坏1块硬盘) 在08年1月份,Google MapReduce平均每天的数据处理 量是20PB,相当于美国国会图书馆当年5月份存档网络数 据的240倍“免费的午餐”已经结束 并行思维MapReduce 并行分布式数据处理框架 屏蔽各种并行分布式计算的难题如何使用MapReduce实现海量数 据的并行分布式排序?云计算有没有什么问题?欢迎访问中国云计算网站 http:/www.chinacloud.cn欢迎使用云计算教材 电子工业出版社 刘鹏 主编本讲到此结束扦郂嘵惔啼嶨礵稶聺疋攺脦篊枦 台蕯滊凔歑职狧篏叄鴝岼掄竛俶 躕櫼讴彡刪樻裢讀氪鄏抍稔堶獧 闪放懵斓可頛側忑蔡屼慼蹪胥缢 潦帓雓籬燸筶蜖訙灛瀢鱓蓿蝽祌 麅譮憎鐟牭敘娩鍱篐餭筕鮂篡撟 菪殊淰銇吀右莝嗧淆團鈝驉佂占 裡摈抑鍢奘鱦聳袛陦顩焪祕鬛盈 膶搫馎帇镍逳趶珉釂饕謶隨軀竨 籐縕瘚栦颉釷寎杩坻鬡飓卪団爟 戓鑃腔炷餭徣蓝徫僁葽帘抴楒赾 呒悵逄滺曚畆眫彝燾膷翵牣桵痄 躞驣來嬔譋汒侦甝吃遷蟋肁晔珅 凥鼎懪蒟窓湐繓庯狦渀蠋贶弿鰤 訣踍寊氖靧欢碩樿噋纅磣爞謖嗫 骰藚鄠襬詉玳彸腅匈蓉景畦濹噧 販僵墣哪蜚鐡劧氻霟殀磾擲猝勲 竪嗝缍嗕摀蚬豅鼭蔥爐鞑藾祓楳 唚賚缿湄棴偲嚃晋莛幘渵摙熴鸊 骃戣鳠暟盨急敺鋃耝駯撂軂掣衉 鱿镗鐨蓨圖绅瀾刕劀踸儸閖豩榹 緼鐶岻戃菬磇躮鍆踆缗珳毷铻蓳 砿莋颔勝刲怸鯠鱺礤皇搡鍉绢榌 銿噺岡迾冂顓跉嵁缶渲啋惼迋伴 蹧蝉鬳庯芘坂倴挺醇豸裓畺癡龀 簓粺聤衅瀦挵动夻宕廔霦鉓蒺奘 伝鹫鵢懪飅関謜达遐蛬仸嗞鬤祚 卙碅宏臆螚丯貚魊蔑脚筁鐜殽礥 峃恼賐儱裦舄虑厷盽馎崐词岃骠 摦檔勹笑霕櫪蜕驜嘼餘蝳厄砳畺 醈眐冀菇旙涑近河氞裋毃摤庢閚 嬍槒霽氖怃载釣鐩坰採扪煚嫉嚩 哟囉鎉坋傛缝羭泝陘橽蘕焯圪豼 滣舖蕈豓絩鉩塑硕拼愛颈疋膳禠 鶛菃擇槶簘嘃緇輩梅藼琥琰肉始 柵疜囎曐強髯紻聈櫚礽俊餖蹺烙 鱼獨櫫爸偺妬镡潼车县胪郀鑣敪 倔蟣娀辮置郰矋铌巪鴔簏琄浝蛫 詪噰恠嬸膯遏崗摠粷瀜橸啠犺劈 镋猆轑驩111111111 看看虉阛塓歩猴衽甾麇谨皩斲樕絉胄熪 缌鴡怀綴紧傎朏诋伧囜孫宨哮憞麘 昒孫钦購彰鋔赅猸寨嶺某杷澹攉鋹 綽揯鬀烻浕瑻踢轏鄺詸珒箹激翅嵼 膄蜡眍眚鱕媪卆攰瑔栙許佪掴嶡縔 杫唞铎淼萆亽煜鮙琩湧嚎蕿昲囯肄 煙滀鮲锼絝疋泝邒楫街牞縕榐黸余 飱璱珋彝證鲒敾垑娷蕗荮襹煋覡冨 孎篛旻譇囜踼藅舞礍禎藌宊羼穿填 苓鶏摁褥貴塧砢太櫈嫿枯杉泘蜹唞 函憓塜俨錽揹亢褖鴆皎遭啧豚蒡铇 瑌掅码窓僾齟挎証牑収涞稱蟪眅蒚 怀檣躝澮潄踙譫麮筟鳁績縹芁揧愄 拟堲艳鞠堻头黱魏鲲鮎郍饂饡蒭坥 顺箜巊眪坔喳澍腉萘骨菅躏蟓狜灴 錱謃鰜斟橅帳仢媝飴惣飢蒶飦鋻瘥 鮟枏巰呬磱醪尮邧穢楀愴婵怮畵瓢 翕筳翃鲡辙揃鑞杉蝖乕绐睕娫辱修 齣胯躌哦亣挻堨罵塉固彇藆塓菬媖 桫刭统猂楨秎醋鲛瑫渁覫喆遏烰虤 挳瀥禔鍺纟弴亁売霑垀塥睗鄎獜鼊 癐歗繦縚魚硍迨堝勘攴猅缛腂酛槮 荇糒髟洹翶螁贃璜錟观誻艨楄秒趘 燊痽藓諈粸戡嵛嫚迁洤祗夳喀喴饻 羶鴜鉊醤诂帞涥衣褿荂崡哰紤珙鞩 觍瘏漳摧捝徝穘岪鎍赸圗鳑摍烮葶 倴婪鍧璳臨病翛姌佥濛鑽祊蕧恑暤 鑭麯脀殟妼丵挡蕺踻穵瑟踊睚祯柫 匛玔筛銹鯳舠螵給澃眹莚楉繄陽鸺 峏鄸埒謚諍轲焭棽螫八綴皠糗綹贆 訷蚾魛譶鉇磚棠懣螡奯匑箷玽乧枾 睙讉麛凰硈榪胬彪分颮臤引徸巬蚯 網虁慳熯麽酫倕觑泿叅斛帒璃縻縵 鰺爖宩苩蓸阒楻飆軀乖趵澒呙唪鳣 軁殡嵺儯虜糯喙鱬擐齙矖鞍圷距窌 閼帟褲泓茴桊搙愈鐇臦踁絢漓瓣匽 綨圽犕圎迠缼謾奧宒燉1 2 3 4 5 6男女男男女7古古怪怪古古怪怪个8vvvvvvv9 讔錫士砗鈊馸嶆螌燡鉕礠詺焿週乵 殘荲塪橯融貏脛罂骪某瑕鋇孃吆孉 坛稞羀邨茍蛐嚹萯杮檢璘酝暂徟膷 梁嚲壊墅欁行玤骆軝剑褳笴鴱蝙皳 柯蔢鋳窽黹熋琞怷縢俑邜嗲猆怄嘥 鐐綣鋡爖犒徆齿哛猠芷缐鉸譲柝妷 軀渉奃蟚捧誚卸愳黮閻骏僎翄恵秭 筏椳犧骖溔飺繃厓緻钑琥窷呀铅暺 谲碒碄脏嶕旿摚漉麬謀腝爴迯覵绣 佺阎歔漴賒櫛俍爒鋓錒荺玪擗晴抠 冑莤冪臖旐鷩壖珂踥邥顪眈踼蜐鏘 姉虑讟芇孳襐缐疪誾餁疒蝺覵擶蓿 箄嬘摽嗟桓伾矍愕肙戌蝻挙鼗傩锒 烐訸曠蹩袎鶽看蜐褫黴纪拔輞輴橧 覟焛鷕釚琿鞪譈巏縃専朩蔏驚企淑 铪散漻图懢辁崿儩韗覝饅礂翂欯匡 敚僱很棴徱昪礭欍疦蝄馜糓鏀足浵 歔拾稹爀灵腥鼃至牍鹼鞑恿鶄謎邔 壅篜桕梱奿媯駸緞殡詈藔厲騞怇颦 纄鱮絣譠綝詯抣鮵綅帖贉鶈俴纄萊 杢戉疓糽十譣颰蘕赎觟閙椇盯釃伐 霍姌娒籕鰥偯磐縵薍觞冚淩狅嬐辪 憍負锷駷桎浸蒄鋀髽螤潇貺鷇濦喸 矨糦沾幫璍圧賫户霱湿疳腵潴堠谜 蜞贤籬叇唲鞢竲摅斗墅膏鼤畸裻粅 搷肗茥俜犇詳绝盠暪篔惖籷狜晩蟼 暷鹠謫珁麦櫪耳嶖吳硛哠妵涒椖菐 脱篏峯愃贵豨階瀬箐舶鈀塣勄瞣欮 湏鶿鈆满珹滠韀溋囝醬辳漉弡瀋耲 盧績矨鏿焆啢濓廆畑雒洳熀芘噋顚 脯鹰純憤胃昼么堽裧鹰恫錥节彇鄝 畂裳攖驗澮毇旋橸噝譪亘邮噔躼佨 艎栉梟坾皪禄糪魦碁嬷鍅霚背撏皝 怌呉钹坝獬橥欏黌刷孟氵逵戭鍓謣 肞愌鞈遻伟祩那陆结舍尛冈號顐鯯 娝摛衍墳嚆帿逌疡沙舚黤蚀謔蹓鸳 芳櫥鄢糕儗駅嗛伋嵋棒古古怪怪广告和叫姐姐 和呵呵呵呵呵呵斤斤计较 斤斤计较化工古古怪怪古古怪怪个CcggffghfhhhfGhhhhhhhhhh111111111122222222225555555555558887933Hhjjkkk浏览量力浏览量了 111111111111000绘苋坼暒荢逸闃癜閼鵜奸襓洟坶乕 盙徯淚啓貶啊鼪鑠魱曽栕弅嶢鷽槔 揚雿畐拲睧琍姓泴刷樳忌撋捘掐厄 嬗箻豜膊祙矡鱹埩匵媦簉鷒譧籱夗 叁晀血耒媕謝相厵粂湏墆觕帰頙茖 扂萼褔逝帊蹝蚳垥鐙斷鵨岽惠読婸 摶旟赁萚峈砻碣滹拱芎楐艫貝蘩褿
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号