高级体系结构课件-－金锄头文库

1Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机体系结构高性能计算机体系结构83681250)qiaobaiyouise.neu.edu.cn高级体系结构课件2Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机体系结构高性能计算机体系结构参考教材参考教材Computer Architecture: A Quantitative Approach, Hennessy and Patterson, 机械工业机械工业高等计算机系统结构并行性可扩展性可编程性高等计算机系统结构并行性可扩展性可编程性清华清华大学出版社大学出版社Parallel Computer Architecture -A Hardware/software Approach 机械工业机械工业计算机系统结构计算机系统结构张晨曦等，高等教育出版社，张晨曦等，高等教育出版社，2008并行计算机系统结构与可扩展计算，并行计算机系统结构与可扩展计算，古志民、孙贤和古志民、孙贤和清华大学出版社清华大学出版社 2009并行计算机体系结构，陈国良等著，高等教育出版社，并行计算机体系结构，陈国良等著，高等教育出版社，2002高级体系结构课件3Advanced Computer ArchitectureThe School of Information Science and Engineering主要内容主要内容1.高性能计算与高性能计算机高性能计算与高性能计算机2.指令流水技术基础指令流水技术基础(复习复习)3.指令级并行性指令级并行性4.指令的动态调度与分支预测指令的动态调度与分支预测5.互连网络：拓扑结构，寻径技术，互连网络：拓扑结构，寻径技术，6.并行处理基础：模型，性能，自动并行化并行处理基础：模型，性能，自动并行化7.共享存储器多处理机：共享存储器多处理机：cache一致性，同步一致性，同步8.大规模并行处理：主动消息，大规模并行处理：主动消息，多线程多线程高级体系结构课件4Advanced Computer ArchitectureThe School of Information Science and Engineering41. 高性能计算的意义2. 高性能计算的发展与现状3. 高性能计算的典型应用4. 高性能计算的挑战与机遇高性能计算与高性能计算机高级体系结构课件5Advanced Computer ArchitectureThe School of Information Science and Engineering国家高性能计算中心（合肥）52024/9/131. 高性能计算的意义1.1 高性能计算的内在含义1.2 高性能计算的应用需求1.3 高性能计算的战略地位高级体系结构课件6Advanced Computer ArchitectureThe School of Information Science and Engineering61. 高性能计算的意义（1）1.1 1.1 高性能计算的内在含义高性能计算的内在含义高性能计算的内在含义高性能计算的内在含义计算和计算科学计算和计算科学所有的学科都转向定量化和精确化所有的学科都转向定量化和精确化三大科学：三大科学：三大科学：三大科学：理论科学、实验科学和计算科学理论科学、实验科学和计算科学计算科学是一个交叉学科计算科学是一个交叉学科, , 用计算的方法来解决应用问题。用计算的方法来解决应用问题。适用于理论模型复杂或尚未建立、实验费用昂贵或无法进适用于理论模型复杂或尚未建立、实验费用昂贵或无法进行。行。计算物理、计算化学、计算生物学、计算地质学、计算气计算物理、计算化学、计算生物学、计算地质学、计算气象学。象学。并行计算是跟上摩尔定律的重要手段。并行计算是跟上摩尔定律的重要手段。高级体系结构课件7Advanced Computer ArchitectureThe School of Information Science and Engineering1. 高性能计算的意义（2）高性能计算HPC（High Performance Compute）泛指量大、快速、泛指量大、快速、高效的运算高效的运算高性能计算-并行计算并行计算(Parallel Computing）高端计算(High-end Parallel Computing)高性能计算(High Performance Computing)超级计算(Super Computing)高级体系结构课件8Advanced Computer ArchitectureThe School of Information Science and Engineering81. 高性能计算的意义（3）高性能计算主要包括：高性能计算主要包括：向量计算向量计算并行计算并行计算分布式计算分布式计算网络计算网络计算网格计算网格计算云计算云计算高级体系结构课件9Advanced Computer ArchitectureThe School of Information Science and EngineeringNortheastern University Sep. 6, 2012MossoGoogle App EngineRails OneSalesforceGmailGliffyJoyentAmazone Web SvcsNirvanixXcalibreAkamaiPaaSSaaSIaaSCloud Computing云计算是并行计算云计算是并行计算(Parallel Computing)、分布式计算、分布式计算(Distributed Computing)和网和网格计算格计算(Grid Computing)的发展，的发展，或者说是这些计算机科学概念的或者说是这些计算机科学概念的商业实现商业实现云计算是虚拟化云计算是虚拟化(Virtualization)、效用计算效用计算(Utility Computing)、IaaS(基础设施即服务基础设施即服务)、PaaS(平台即服务平台即服务)、SaaS(软件即服务软件即服务)等概念混合演进并跃升的结果等概念混合演进并跃升的结果高级体系结构课件10Advanced Computer ArchitectureThe School of Information Science and Engineering101. 高性能计算的意义（4）高性能计算的量纲前缀前缀缩写缩写基幂基幂含意含意数值数值KiloKiloK K10103 3ThousandThousand千千MegaMegaMM10106 6MillionMillion兆，百万兆，百万GigaGigaG G10109 9BillionBillion千兆，千兆，1010亿亿TeraTeraT T10101212TrillionTrillion垓，万亿垓，万亿PetaPetaP P10101515QuadrillionQuadrillion千万亿千万亿ExaExaE E10101818QuitillionQuitillion百亿亿百亿亿FlopsFlops：每秒所执行的浮点运算次数：每秒所执行的浮点运算次数 (floating-point operations per second (floating-point operations per second ) )目前的目前的PCPC机运算速度通常在机运算速度通常在GFlopsGFlops量级，高性能计算机运算速度则在量级，高性能计算机运算速度则在TFlopsTFlops至至PFlopsPFlops量级。量级。高级体系结构课件11Advanced Computer ArchitectureThe School of Information Science and Engineering111. 高性能计算的意义（5）1.2 1.2 高性能计算的应用需求高性能计算的应用需求高性能计算的应用需求高性能计算的应用需求应用需求应用需求计算密集型应用计算密集型应用（Computing-intensive)Computing-intensive)：大型科学工程计算，数值模拟等。大型科学工程计算，数值模拟等。应用领域：石油、气象、应用领域：石油、气象、CADCAD、核能、制药、环境监测分析、核能、制药、环境监测分析、系统仿真等。系统仿真等。数据密集型应用数据密集型应用（Data-intensive)Data-intensive)：数字图书馆，数据仓库，数据挖掘，计算可视化等。数字图书馆，数据仓库，数据挖掘，计算可视化等。应用领域：图书馆、银行、证券、税务、决策支持系统等。应用领域：图书馆、银行、证券、税务、决策支持系统等。通信密集型应用通信密集型应用（Network-intensive)Network-intensive)：协同工作，网格计算，遥控和远程诊断等。协同工作，网格计算，遥控和远程诊断等。应用领域：网站、信息中心、搜索引擎、电信、流媒体等。应用领域：网站、信息中心、搜索引擎、电信、流媒体等。高级体系结构课件12Advanced Computer ArchitectureThe School of Information Science and Engineering121. 高性能计算的意义（6）千万亿次超级计算机的应用需求应用领域应用领域应用领域应用领域应用需求应用需求应用需求应用需求计算能力需求计算能力需求计算能力需求计算能力需求存储容量需求存储容量需求存储容量需求存储容量需求生物医学生物医学生物医学生物医学蛋白质电子态的计算蛋白质电子态的计算蛋白质电子态的计算蛋白质电子态的计算药物发明中的筛选过程药物发明中的筛选过程药物发明中的筛选过程药物发明中的筛选过程蛋白质折叠蛋白质折叠蛋白质折叠蛋白质折叠100Tflops100Tflops800Tflops800Tflops1Pflops1Pflops30TB30TB200TB200TB1PB1PB航空航天制造航空航天制造航空航天制造航空航天制造发动机燃烧模拟和机翼设计模拟发动机燃烧模拟和机翼设计模拟发动机燃烧模拟和机翼设计模拟发动机燃烧模拟和机翼设计模拟500Tflops500Tflops100TB100TB气候环境气候环境气候环境气候环境短期天气预报短期天气预报短期天气预报短期天气预报长期天气预报长期天气预报长期天气预报长期天气预报局部突发性灾难预报（如洪水、海啸）局部突发性灾难预报（如洪水、海啸）局部突发性灾难预报（如洪水、海啸）局部突发性灾难预报（如洪水、海啸）20Tflops20Tflops200Tflops200Tflops1Pflops1Pflops10TB10TB100TB100TB500TB500TB核能领域核能领域核能领域核能领域完全等离子分析（包括电子结构分析）完全等离子分析（包括电子结构分析）完全等离子分析（包括电子结构分析）完全等离子分析（包括电子结构分析）核武器数值模拟核武器数值模拟核武器数值模拟核武器数值模拟天然气燃烧天然气燃烧天然气燃烧天然气燃烧500Tflops500Tflops1Pflops1Pflops1Pflops1Pflops1PB1PB1PB1PB1PB1PB纳米技术纳米技术纳米技术纳米技术复合材料的结构分析和功能预测复合材料的结构分析和功能预测复合材料的结构分析和功能预测复合材料的结构分析和功能预测新材料发明新材料发明新材料发明新材料发明200Tflops200Tflops1Pflops1Pflops400TB400TB2PB2PB天体物理学天体物理学天体物理学天体物理学超新星三维模拟超新星三维模拟超新星三维模拟超新星三维模拟1Pflops1Pflops1PB1PB国防和国家安全国防和国家安全国防和国家安全国防和国家安全密码破译密码破译密码破译密码破译先进武器模拟先进武器模拟先进武器模拟先进武器模拟1Pflops1Pflops1Pflops1Pflops1PB1PB1PB1PB高级体系结构课件13Advanced Computer ArchitectureThe School of Information Science and Engineering天气预报天气预报1990年年10次台风登陆，福建、浙江两省损失次台风登陆，福建、浙江两省损失79亿元，死亡亿元，死亡950余人。余人。天气预报模式为非线性偏微分方程，预报台天气预报模式为非线性偏微分方程，预报台风暴雨过程，计算量为风暴雨过程，计算量为10141016次浮点运算，次浮点运算，需要需要10GFlops100GFlops的巨型机。的巨型机。用途用途：局部灾害性天气预报。：局部灾害性天气预报。高级体系结构课件14Advanced Computer ArchitectureThe School of Information Science and Engineering石油工业石油工业地震勘探资料处理地震勘探资料处理油藏数值模拟油藏数值模拟测井资料处理测井资料处理地震勘探由数据采集、数据处理和资料解释三阶段地震勘探由数据采集、数据处理和资料解释三阶段组成。组成。目前采用的三维地震勘探比较精确的反映地下情况，目前采用的三维地震勘探比较精确的反映地下情况，但数据量大，处理周期长。但数据量大，处理周期长。100100平方公里的三维勘探面积，道距平方公里的三维勘探面积，道距2525米，米，6060次覆次覆盖，盖，6 6秒长记录，秒长记录，2 2毫秒采样，一共采集毫秒采样，一共采集2.882.88 10101010个数据，约为个数据，约为116GB116GB。高级体系结构课件15Advanced Computer ArchitectureThe School of Information Science and Engineering叠加后数据为叠加后数据为4.84.8 10108 8个数据。用二维叠加深度偏个数据。用二维叠加深度偏移方法精确的产生地下深度图像，需要进行移方法精确的产生地下深度图像，需要进行2525 10101212FLOPFLOP，采用，采用100MFLOPs100MFLOPs机器计算机器计算250250天，天，1GFLOPs1GFLOPs机计算机计算2525天，天，10GFLOPs10GFLOPs机器机器3535分。考虑分。考虑到机器持续速度常常是峰值速度的到机器持续速度常常是峰值速度的10-30%10-30%，所以，所以需要需要100GFlops100GFlops的机器。的机器。Cray T932/32Cray T932/32约为约为60GFLOPs60GFLOPs。高级体系结构课件16Advanced Computer ArchitectureThe School of Information Science and Engineering航空航天航空航天研究三维翼型对飞机性能的影响。数值模拟用研究三维翼型对飞机性能的影响。数值模拟用时间相关法解时间相关法解Navier-Stoker方程，网格分点方程，网格分点为为120 4040 5050，需内存，需内存160MB160MB，6 6亿计算机上亿计算机上解解1212小时，如果在数分钟内完成设计，则需要小时，如果在数分钟内完成设计，则需要千亿次计算机。千亿次计算机。高级体系结构课件17Advanced Computer ArchitectureThe School of Information Science and Engineering核武器核武器核爆炸数值模拟，推断出不同结构与不同条件下核爆炸数值模拟，推断出不同结构与不同条件下核装置的能量释放效应。核装置的能量释放效应。压力：几百万大气压压力：几百万大气压温度：几千万摄氏度温度：几千万摄氏度能量在能量在秒级内释放出来。秒级内释放出来。设计一个核武器型号，从模型规律、调整各种参设计一个核武器型号，从模型规律、调整各种参数到优选，需计算成百上千次核试验。数到优选，需计算成百上千次核试验。LosAlamos实验室要求计算一个模型的上限为实验室要求计算一个模型的上限为8-10小时。小时。高级体系结构课件18Advanced Computer ArchitectureThe School of Information Science and Engineering 千万次机上算椭球程序的计算模型需要千万次机上算椭球程序的计算模型需要40-60CPU小时。小时。二维计算，每方向上网格点数取二维计算，每方向上网格点数取100，二维计，二维计算是一维的算是一维的200倍，三维是一维的倍，三维是一维的33000倍。若倍。若每维设每维设1000网格点，则三维计算是一维的几十网格点，则三维计算是一维的几十万倍之多。此时对主存储器容量要数十、数百万倍之多。此时对主存储器容量要数十、数百亿字单元（亿字单元（64位）。位）。另外还有另外还有I/O能力的要求，可视化图形输出能力的要求，可视化图形输出计算空气动力学计算空气动力学：千亿次：千亿次/秒（秒（1011）图像处理图像处理：百亿次百亿次/秒（秒（1010）AI：万亿次万亿次/秒（秒（1012）高级体系结构课件19Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件20Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件21Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件22Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件23Advanced Computer ArchitectureThe School of Information Science and Engineering231. 高性能计算的意义（7）1.3 1.3 高性能计算的战略地位高性能计算的战略地位高性能计算的战略地位高性能计算的战略地位从战略高度上讲从战略高度上讲高性能计算技术是一个国家综合国力和科技创新力的重要标志，高性能计算技术是一个国家综合国力和科技创新力的重要标志，各个国家竞相争夺的战略制高点。各个国家竞相争夺的战略制高点。高性能高计算是支撑国家实力持续发展的关键技术之一高性能高计算是支撑国家实力持续发展的关键技术之一。高性能计算国防安全、高科技发展和国民经济建设中占有重要高性能计算国防安全、高科技发展和国民经济建设中占有重要的战略地位。的战略地位。重大挑战重大挑战问题：飞机设计、药物设计、全球气候预测、人类基问题：飞机设计、药物设计、全球气候预测、人类基因、海洋环流新材料、油藏数值模拟、生物分子结构、半导体因、海洋环流新材料、油藏数值模拟、生物分子结构、半导体建模、超导建模等。建模、超导建模等。高级体系结构课件24Advanced Computer ArchitectureThe School of Information Science and Engineering241. 高性能计算的意义（8）高性能计算在发达国家的战略地位（1）美国有关发展高性能计算的建议报告美国有关发展高性能计算的建议报告从从从从19821982年到年到年到年到20052005年年年年，美国国防部、能源部、国家科，美国国防部、能源部、国家科学院、国家科学基金委以及美国总统信息技术顾问学院、国家科学基金委以及美国总统信息技术顾问委员会、美国信息技术咨询委员会、美国国家竞争委员会、美国信息技术咨询委员会、美国国家竞争力委员会等提出的有关信息技术和计算机的建议报力委员会等提出的有关信息技术和计算机的建议报告中，大都涉及到了高性能超级计算机的内容。告中，大都涉及到了高性能超级计算机的内容。高级体系结构课件25Advanced Computer ArchitectureThe School of Information Science and Engineering251. 高性能计算的意义（9）高性能计算在发达国家的战略地位（高性能计算在发达国家的战略地位（2 2）清单清单( (按年代排序按年代排序) )19821982年，美国国家科学院：关于科学研究及工程中的大规模计算年，美国国家科学院：关于科学研究及工程中的大规模计算19931993年，美国国家科学院：从台式计算机到万亿次计算机：充分发挥美国年，美国国家科学院：从台式计算机到万亿次计算机：充分发挥美国在高性能计算领域领导权在高性能计算领域领导权19951995年，美国国家科学院：特别工作组关于未来国家科学基金委超级计算年，美国国家科学院：特别工作组关于未来国家科学基金委超级计算中心计划报告中心计划报告19961996年，美国总统信息技术顾问委员会：信息技术研究：为了未来年，美国总统信息技术顾问委员会：信息技术研究：为了未来20002000年，美国国家科学院：促使信息技术更好年，美国国家科学院：促使信息技术更好20012001年，美国国家科学院：无处不在年，美国国家科学院：无处不在20022002年，美国国防部：适用于国家安全部门的高性能计算年，美国国防部：适用于国家安全部门的高性能计算20032003年，美国能源部：基于科学的大规模模拟年，美国能源部：基于科学的大规模模拟20032003年，美国国家科学基金委：通过计算机基础结构变革科学与工程年，美国国家科学基金委：通过计算机基础结构变革科学与工程20032003年，美国国家科学基金委：信息时代的知识丢失年，美国国家科学基金委：信息时代的知识丢失20042004年，美国国家竞争力委员会：促使美国变革并提高竞争力年，美国国家竞争力委员会：促使美国变革并提高竞争力20042004年，美国跨机构：联邦高端计算计划高端计算复兴特别工作组年，美国跨机构：联邦高端计算计划高端计算复兴特别工作组20052005年，美国国家科学院：超级计算机未来年，美国国家科学院：超级计算机未来20052005年，美国总统信息技术顾问委员会：计算科学：确保美国竞争力年，美国总统信息技术顾问委员会：计算科学：确保美国竞争力高级体系结构课件26Advanced Computer ArchitectureThe School of Information Science and Engineering261. 高性能计算的意义（10）高性能计算在发达国家的战略地位（高性能计算在发达国家的战略地位（3 3）美国发展有关高性能计算的行动计划美国发展有关高性能计算的行动计划 19931993年，美国科学工程技术联邦协调理事会：年，美国科学工程技术联邦协调理事会：HPCC (High HPCC (High performance Computing & Communication) Grand Challengeperformance Computing & Communication) Grand Challenge计划，计划，提出发展万亿次提出发展万亿次(Tera=10(Tera=101212) )计算机计划。计算机计划。 19961996年，美国能源部和年，美国能源部和Lawrence LivermoreLawrence Livermore、Los AlamosLos Alamos、SandiaSandia三大核武器国家实验室：三大核武器国家实验室：ASIC (Accelerated Strategic Computing ASIC (Accelerated Strategic Computing Initiative) Initiative) 计划，提出发展千万亿次计划，提出发展千万亿次(Pera=10(Pera=101515) )计算机的目标。计算机的目标。 19971997年，年，HPCCHPCC包括了包括了HECC (High End Computing & HECC (High End Computing & Communication),Communication),被扩展为被扩展为CIC (Computing, Information, CIC (Computing, Information, Communication)Communication)计划。计划。 19981998年度的年度的CICCIC蓝皮书，将千万亿次计算机硬件和软件研制列入了计蓝皮书，将千万亿次计算机硬件和软件研制列入了计划中。划中。 20022002年启动年启动HPCSHPCS计划，希望确定未来计划，希望确定未来1010到到2020年超级计算机的体系年超级计算机的体系结构。结构。高级体系结构课件27Advanced Computer ArchitectureThe School of Information Science and Engineering272024/9/131. 高性能计算的意义（11）高性能计算在发达国家的战略地位（高性能计算在发达国家的战略地位（4 4）美国美国19961996年提出的年提出的ASCIASCI（Accelerated Strategic Computing Accelerated Strategic Computing InitiativeInitiative）计划。）计划。通过数值模拟，评估核武器的性能、安全性、可靠性等。通过数值模拟，评估核武器的性能、安全性、可靠性等。高分辨率、高逼真度、三维、全物理、全系统的规模和能力。高分辨率、高逼真度、三维、全物理、全系统的规模和能力。计划研制计划研制5 5代计算平台，目前，前四代已完成，第五代平台正在研制。代计算平台，目前，前四代已完成，第五代平台正在研制。随着第一个十年研究结束，已经开始为下一个十年发展制订规划。随着第一个十年研究结束，已经开始为下一个十年发展制订规划。高级体系结构课件28Advanced Computer ArchitectureThe School of Information Science and Engineering281. 高性能计算的意义（12）高性能计算在发达国家的战略地位（5）ASCIASCI平台性能发展图平台性能发展图高级体系结构课件29Advanced Computer ArchitectureThe School of Information Science and Engineering291. 高性能计算的意义（13）高性能计算在发达国家的战略地位（高性能计算在发达国家的战略地位（6 6）ASCIASCI高性高性能计算机能计算机Blue MountainBlue MountainBlue MountainBlue MountainOption RedOption RedOption RedOption Red高级体系结构课件30Advanced Computer ArchitectureThe School of Information Science and Engineering301. 高性能计算的意义（14）高性能计算在发达国家的战略地位（7）美国美国20022002年启动的千万亿次年启动的千万亿次超级计算机研究超级计算机研究HPCSHPCS计划计划从从20022002年起的两年多时间里，年起的两年多时间里，ESES占据占据TOP1TOP1位置位置 ClusterCluster并不是并不是HPCHPC的最终体系结的最终体系结构构美国美国DARPADARPA于于20022002年启动高生产年启动高生产率计算系统（率计算系统（High Productivity High Productivity Computing Systems) HPCSComputing Systems) HPCS计划计划希望确定未来希望确定未来1010年甚至年甚至2020年的高年的高性能计算机体系结构性能计算机体系结构高生产率而非峰值计算能力作为高生产率而非峰值计算能力作为评价指标评价指标高性能计算的一个新的创新时代高性能计算的一个新的创新时代的开始的开始高级体系结构课件31Advanced Computer ArchitectureThe School of Information Science and Engineering311. 高性能计算的意义（15）高性能计算在发达国家的战略地位（高性能计算在发达国家的战略地位（8 8） HPCSHPCS计划的三个阶段计划的三个阶段高级体系结构课件32Advanced Computer ArchitectureThe School of Information Science and Engineering321. 高性能计算的意义（16）高性能计算在发达国家的战略地位（高性能计算在发达国家的战略地位（9 9） HPCSHPCS的设计策略的设计策略高级体系结构课件33Advanced Computer ArchitectureThe School of Information Science and Engineering331. 高性能计算的意义（17）高性能计算在我国的战略地位（高性能计算在我国的战略地位（1 1）20062006年年2 2月，国务院发布月，国务院发布国家中长期科学和技术发国家中长期科学和技术发展规划纲要（展规划纲要（2006200620202020年）年）指出加速发展高性能计算对提高我国国防建设与国指出加速发展高性能计算对提高我国国防建设与国家安全、国家经济建设、国家重大工程和基础科学家安全、国家经济建设、国家重大工程和基础科学研究等尖端科技领域的核心支撑能力，具有十分重研究等尖端科技领域的核心支撑能力，具有十分重要的战略意义。要的战略意义。提出要全面提升我国的自主创新能力，以期将我国提出要全面提升我国的自主创新能力，以期将我国在在20202020年前建设成为一个创新型国家。年前建设成为一个创新型国家。高级体系结构课件34Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算的战略地位（中国）高性能计算的战略地位（中国）国家大力发展高性能计算国家大力发展高性能计算军事：银河、神威等军事：银河、神威等民用：曙光、联想等民用：曙光、联想等高性能计算已应用到国民经济的多个行业高性能计算已应用到国民经济的多个行业石油、气象、军事、科研等石油、气象、军事、科研等国产高性能计算机曾进入国产高性能计算机曾进入TOP500前前10位，总数位，总数也大幅增加也大幅增加安装的计算机总数在增长（安装的计算机总数在增长（28台）台）高级体系结构课件35Advanced Computer ArchitectureThe School of Information Science and Engineering我国超级计算机发展年谱我国超级计算机发展年谱型号型号面世时间面世时间每秒运算速度（峰值）每秒运算速度（峰值）银河银河19831983年年1 1亿次亿次曙光一号曙光一号19921992年年6.46.4亿次亿次银河银河19941994年年1010亿次亿次银河银河19971997年年130130亿次亿次神威神威19991999年年38403840亿次亿次深腾深腾1800180020022002年年1 1万亿次万亿次曙光曙光4000A4000A20042004年年1111万亿次万亿次神威神威3000A3000A20072007年年1818万亿次万亿次深腾深腾7000700020082008年年106.5106.5万亿次万亿次曙光曙光5000A5000A20082008年年230230万亿次万亿次天河一号天河一号20092009年年12061206万亿次万亿次高级体系结构课件36Advanced Computer ArchitectureThe School of Information Science and Engineering361. 高性能计算的意义（18）高性能计算在我国的战略地位（高性能计算在我国的战略地位（2 2）中国高性能计算发展大事记中国高性能计算发展大事记中国高性能计算发展大事记中国高性能计算发展大事记 19831983年，由国防科技大学研制的年，由国防科技大学研制的银河银河I I型型亿次巨型机系统的成功问世，标志着我国具备了亿次巨型机系统的成功问世，标志着我国具备了研制高端计算机系统的能力。研制高端计算机系统的能力。 19921992年，曙光投入年，曙光投入200200万元研制曙光一号。随后，曙光一号、曙光万元研制曙光一号。随后，曙光一号、曙光10001000、曙光、曙光20002000、曙光、曙光30003000、曙光、曙光40004000相继问世。相继问世。 19941994年，银河年，银河I I的换代产品的换代产品银河银河II II在国家气象局正式投入运行，其系统性能达每秒在国家气象局正式投入运行，其系统性能达每秒1010亿次，亿次，大大缩短了我国与先进国家的差距。大大缩短了我国与先进国家的差距。 19971997年，年，银河银河IIIIII并行巨型计算机在北京通过国家鉴定，峰值性能为每秒并行巨型计算机在北京通过国家鉴定，峰值性能为每秒130130亿浮点运算。亿浮点运算。 19991999年，首台年，首台“神威神威I I”计算机通过了国家级验收，并在国家气象中心投入运行。计算机通过了国家级验收，并在国家气象中心投入运行。 20002000年，由年，由10241024个个CPUCPU组成的组成的银河银河超级计算机系统问世，峰值性能达到每秒超级计算机系统问世，峰值性能达到每秒1.06471.0647万万亿次浮点运算。亿次浮点运算。 20022002年，世界上第一个万亿次机群系统年，世界上第一个万亿次机群系统联想深腾联想深腾18001800出世，获得出世，获得20042004年国家科技进步二年国家科技进步二等奖。等奖。 20032003年，年，联想深腾联想深腾68006800问世把世界机群计算推向新的高峰。问世把世界机群计算推向新的高峰。 20042004年，曙光年，曙光4000A4000A成功研制，使中国成为继美国、日本之后第三个能研制成功研制，使中国成为继美国、日本之后第三个能研制1010万亿次商品万亿次商品化高性能计算机的国家化高性能计算机的国家（进入（进入TOP500TOP500前前1010位）位）。 20052005年，中国高性能计算机性能年，中国高性能计算机性能TOP 100TOP 100排行榜揭晓，曙光位居第一。天梭荣获国家科学排行榜揭晓，曙光位居第一。天梭荣获国家科学技术进步二等奖。技术进步二等奖。 20062006年，曙光高性能计算机被胡锦涛总书记点评为年，曙光高性能计算机被胡锦涛总书记点评为“中国七大标志性自主创新成果之一中国七大标志性自主创新成果之一”，曙光，曙光40004000系列高性能计算机荣获国家科学技术进步二等奖。系列高性能计算机荣获国家科学技术进步二等奖。 20072007年年1212月，中国首台采用国产高性能通用处理器芯片月，中国首台采用国产高性能通用处理器芯片“龙芯龙芯2F2F”的万亿次高性能计算机的万亿次高性能计算机“KD-50-IKD-50-I”研制成功。研制成功。 20082008年年6 6月月2424日，中国科学院计算技术研究所、曙光公司和上海超级计算中心在中科院计日，中国科学院计算技术研究所、曙光公司和上海超级计算中心在中科院计算所联合举行了曙光算所联合举行了曙光50005000落户上海超级计算中心的签约仪式。落户上海超级计算中心的签约仪式。高级体系结构课件37Advanced Computer ArchitectureThe School of Information Science and Engineering371. 高性能计算的意义（19）高性能计算在我国的战略地位（3）国产高性能计算平台神威神威神威神威-I-I-I-I联想联想联想联想-6800-6800-6800-6800天河天河天河天河1 1 1 1号号号号(TH-I)(TH-I)(TH-I)(TH-I)曙光曙光曙光曙光- - - -星云星云星云星云(Nebulae)(Nebulae)(Nebulae)(Nebulae)高级体系结构课件38Advanced Computer ArchitectureThe School of Information Science and Engineering230万亿次的浮点运算万亿次的浮点运算6600枚巴塞罗那枚巴塞罗那型四核处理器型四核处理器(主频主频1.9GHz)。30720颗计算核心，颗计算核心，122.88TB内存，磁盘内存，磁盘700TB采用低延迟的采用低延迟的20Gb的网的网络互联络互联IBM“Roadrunner走鹃走鹃”TOP500中第一中第一曙光曙光-5000-5000高级体系结构课件39Advanced Computer ArchitectureThe School of Information Science and Engineering峰值速度和实测速度峰值速度和实测速度分别为每秒分别为每秒1206.19万万亿次和亿次和563.1万亿次万亿次 CPU/GPU混合异构混合异构系统系统 6144个通用处理器；个通用处理器；5120个加速处理器个加速处理器内内存总容量存总容量98TB通信带宽通信带宽40Gbps共享共享磁盘总容量为磁盘总容量为1PB 。共享磁盘总容量为共享磁盘总容量为1PB Top500中第五位中第五位美国克雷公司美国克雷公司“美洲虎美洲虎”（Jaguar）第一，）第一，1.76千万亿次，中国千万亿次，中国“星云星云”第二第二天河一号天河一号高级体系结构课件40Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件41Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算与高性能计算机高性能计算的意义高性能计算的内在含义高性能计算的应用需求高性能计算的战略地位高性能计算发展与现状高性能计算发展与现状高性能计算机的发展高性能计算机的发展高性能计算的现状高性能计算的现状高性能计算面临的主要问题功耗存储(memory wall)编程(programming wall)高性能计算的未来Petaflops超级计算机展望若干新技术中国高性能计算的机遇和挑战高级体系结构课件42Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机高性能计算机高性能计算机由多个计算单元组成，运算速度快、存储容量大、可靠性高的计算机系统。也称为：巨型计算机、超级计算机并行计算机并行计算机由多个处理单元组成的计算机系统，这些处理单元相互通讯和协助，能够高速、高效地求解大型复杂问题。高级体系结构课件43Advanced Computer ArchitectureThe School of Information Science and Engineering其发展历程可以简单的分为两个时代其发展历程可以简单的分为两个时代专用时代专用时代包括向量机，MPP系统，SGI NUMA 系统，SUN大型SMP系统，也包括我国的神威，银河，曙光1000等。之所以称为“专用”，并不是说它们只能运行某种应用，是指它们的组成部件是专门设计的，它们的CPU板，内存板，I/O板，操作系统，甚至I/O系统，都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异，和用户群窄小。普及时代普及时代高性能计算机价格下降，应用门槛降低，应用开始普及。两个技术趋势起到重要作用。商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件标准化趋势使得这些部件之间能够集成一个系统中，其中X86处理器、以太网、内存部件、Linux都起到决定性作用。集群系统是高性能计算机的一种，它的技术基础和工业基础都是商品化和标准化。高级体系结构课件44Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机系统结构高性能计算机系统结构并行向量机SMPDSM（NUMA）MPP，节点可以是单处理器的节点，也可以是SMP，DSMClusterConstellation 高级体系结构课件45Advanced Computer ArchitectureThe School of Information Science and Engineering并行计算机系统类型并行计算机系统类型Flynn分类：SISD, SIMD, MIMD, MISD结构模型：PVP, SMP, MPP, DSM, COW访存模型：UMA, NUMA, COMA, CC-NUMA, NORMA高级体系结构课件46Advanced Computer ArchitectureThe School of Information Science and Engineering并行计算机分类并行计算机分类Flynn分类Flynn(1972)提出指令流、数据流和多倍性概念，把不同的计算机分为四大类：SISD（Single-Instruction Single-Data）SIMD（Single-Instruction Multi-Data）MISD（Multi-Instruction Single-Data）MIMD（Multi-Instruction Multi-Data）现代高性能计算机都属于MIMD。MIMD从结构上和访存方式上，又可以分为：结构模型：PVP, SMP, MPP, DSM, COW访存模型：UMA, NUMA, COMA, CC-NUMA, NORMA高级体系结构课件47Advanced Computer ArchitectureThe School of Information Science and Engineering结构模型结构模型高级体系结构课件48Advanced Computer ArchitectureThe School of Information Science and Engineering对称多处理机系统对称多处理机系统(SMP)SMPSMP对称式共享存储对称式共享存储: :任意处理器任意处理器可直接访问任意内存地址可直接访问任意内存地址, ,且且访问延迟、带宽、机率都是等访问延迟、带宽、机率都是等价的价的; ; 系统是对称的；系统是对称的；微处理器微处理器: : 一般少于一般少于6464个个; ;处理器不能太多处理器不能太多, , 总线和交叉总线和交叉开关的一旦作成难于扩展；开关的一旦作成难于扩展；例子例子: IBM R50, SGI Power : IBM R50, SGI Power Challenge, SUN Enterprise, Challenge, SUN Enterprise, 曙光一号曙光一号; ;高级体系结构课件49Advanced Computer ArchitectureThe School of Information Science and Engineering分布式共享存储系统分布式共享存储系统(DSM)DSMDSM分布共享存储分布共享存储: : 内存模块物理上局部于内存模块物理上局部于各个处理器内部各个处理器内部, ,但逻辑上但逻辑上( (用户用户) )是共是共享存储的享存储的; ; 这种结构也称为基于这种结构也称为基于CacheCache目录的非一致内存访问目录的非一致内存访问(CC-NUMA)(CC-NUMA)结构结构; ;局部与远程内存访问的延迟和带宽不一局部与远程内存访问的延迟和带宽不一致致,3-10,3-10倍倍高性能并行程序设计注意高性能并行程序设计注意; ;与与SMPSMP的主要区别：的主要区别：DSMDSM在物理上有分布在物理上有分布在各个节点的局部内存从而形成一个共在各个节点的局部内存从而形成一个共享的存储器；享的存储器；微处理器微处理器: 16-128: 16-128个个, ,几百到千亿次几百到千亿次; ;代表代表: SGI Origin 2000, Cray T3D;: SGI Origin 2000, Cray T3D;高级体系结构课件50Advanced Computer ArchitectureThe School of Information Science and Engineering大规模并行计算机系统大规模并行计算机系统(MPP)MPPMPP物理和逻辑上均是分布内存物理和逻辑上均是分布内存能扩展至成百上千个处理器能扩展至成百上千个处理器( (微处理器或向量处理器微处理器或向量处理器) )采用高通信带宽和低延迟的互采用高通信带宽和低延迟的互联网络联网络 ( (专门设计和定制的专门设计和定制的) )一种异步的一种异步的MIMDMIMD机器；程序系机器；程序系由多个进程组成，每个都有其由多个进程组成，每个都有其私有地址空间，进程间采用传私有地址空间，进程间采用传递消息相互作用；递消息相互作用；代表代表:CRAY T3E(2048), ASCI :CRAY T3E(2048), ASCI Red(3072), IBM SP2, Red(3072), IBM SP2, 曙光曙光10001000高级体系结构课件51Advanced Computer ArchitectureThe School of Information Science and Engineering集群系统集群系统(Cluster)ClusterCluster每个节点都是一个完整的计算每个节点都是一个完整的计算机机各个节点通过高性能网络相互各个节点通过高性能网络相互连接连接网络接口和网络接口和I/OI/O总线松耦合连总线松耦合连接接每个节点有完整的操作系统每个节点有完整的操作系统曙光曙光20002000、 3000 3000、4000, 4000, ASCI Blue MountainASCI Blue Mountain高级体系结构课件52Advanced Computer ArchitectureThe School of Information Science and Engineering访存模型访存模型UMA:NORMA:NUMA:多处理机（单地址空间共享存储器） UMA: Uniform Memory Access NUMA: Nonuniform Memory Access多计算机（多地址空间非共享存储器） NORMA: No-Remote Memory Access高级体系结构课件53Advanced Computer ArchitectureThe School of Information Science and Engineering结构模型访存模型结构模型访存模型UMA:NUMA:NORMA:高级体系结构课件54Advanced Computer ArchitectureThe School of Information Science and Engineering多处理机多处理机&多计算机多计算机UMA:NUMA:NORMA:多处理机(共享存储) 多计算机(分布式存储)高级体系结构课件55Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机的发展6060707080 80 909000001010巨型机萌芽巨型机萌芽CDC6600CDC6600向量机鼎盛向量机鼎盛CRAY-1CRAY-1，SX-3SX-3MPPMPP发展发展Cray Cray T3ET3E，Option Option RedRed机群发展机群发展NOW, IBM NOW, IBM SP2, ASCI QSP2, ASCI Q定制机器定制机器ESESBlueGeneBlueGene高级体系结构课件56Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机的发展巨型机萌芽阶段（巨型机萌芽阶段（1964-1975）1964年诞生的年诞生的CDC6600被公认为世界上第一台巨型计算机，被公认为世界上第一台巨型计算机，运算速度为运算速度为1Mflops。70年代初研制成功年代初研制成功STAR-100向量机，这是世界上最早的向量机，这是世界上最早的向量机。向量机。随后于随后于1974年，诞生了世界上最早的年，诞生了世界上最早的SIMD阵列计算机阵列计算机-ILLIAC-IV并行机。并行机。向量机鼎盛阶段（向量机鼎盛阶段（1976-1990）向量机处理对提高计算机运算速度十分有利，有利于流向量机处理对提高计算机运算速度十分有利，有利于流水线的充分利用，有利于多功能部件的充分利用，但由于时水线的充分利用，有利于多功能部件的充分利用，但由于时钟周期已接近物理极限，向量计算机的进一步发展已经不太钟周期已接近物理极限，向量计算机的进一步发展已经不太可能。可能。1976年，年，CRAY-1向量机，峰值速度为向量机，峰值速度为0.1Gflops1985年，年，CRAY-2，1Gflops1990年年,SX-3,22Gflops1991年，年，Cray-YMP-C90,16Gflops高级体系结构课件57Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算机的发展MPP蓬勃发展阶段（蓬勃发展阶段（1990-1995）传统向量机逐渐萎缩，大规模并行处理传统向量机逐渐萎缩，大规模并行处理MPP机蓬勃发展的机蓬勃发展的时代。各种新技术层出不穷，大公司也纷纷介入。时代。各种新技术层出不穷，大公司也纷纷介入。1989年，年，BBN公司的公司的TC20001992年，年，Intel公司的公司的Paragon，TMC公司的公司的CM-51993年，年，Cray公司的公司的T3D1994年，年，IBM公司的公司的SP21996年，年，Cray公司的公司的T3E，Hitachi公司的公司的SR2201SGI公司的公司的Origin2000，1996Intel公司的公司的ASCERED运算速度超过了万亿次运算速度超过了万亿次/秒。秒。截至截至2000年年6月，世界上已有月，世界上已有14万亿次机，超过万亿次机，超过3000亿次机亿次机62台。排名世界前台。排名世界前10名的均为名的均为MPP，MPP已成为高性能计算机的主流产品。已成为高性能计算机的主流产品。各种体系结构并存阶段（各种体系结构并存阶段（1995年）年）机群发展机群发展NOW, IBM SP2, ASCI Q NOW, IBM SP2, ASCI Q 定制机器定制机器ES BlueGeneES BlueGene高级体系结构课件58Advanced Computer ArchitectureThe School of Information Science and Engineering1.1.向量机与多向量机向量机与多向量机硬、软件技术相对成熟、应用广泛、市场占有硬、软件技术相对成熟、应用广泛、市场占有率高。很难达到率高。很难达到3Tperformance来解决来解决GrandChallenge问题。问题。下面图表说明了这一类机器的发展过程。下面图表说明了这一类机器的发展过程。高级体系结构课件59Advanced Computer ArchitectureThe School of Information Science and EngineeringGFlops100100.11976 1979 1982 1985 1988 1991 1994YearCray1/10.16GFCray X-MP/20.24GFCray 2/41.9GFCray Y-MP/82.6GFCray J916/163.2GFCray C 916/1616GFCray T932/32 60GF高级体系结构课件ScalarFunctionalpipelinesScalarControlunitscalar processorscalar instructionMain Memory(Program and data)MassStorageHostComputerI/O(user)VectorControlunitvectorregistersvector processorcontrolVectorFunctionalpipelinesVectorFunctionalpipelinesvectorinstruction向量机的结构向量机的结构高级体系结构课件61Advanced Computer ArchitectureThe School of Information Science and Engineering程序和数据从程序和数据从Host进入主机进入主机指令先在指令先在Scalarcontrolunit译码，如是标量译码，如是标量或控制操作指令，则在标量功能流水部件种或控制操作指令，则在标量功能流水部件种执行。如果是向量指令，则进入向量控制部执行。如果是向量指令，则进入向量控制部件。件。register-to-register：CrayseriesFujitsuVP2000seriesmemory-to-memory：Cyber205向量化。向量化。高级体系结构课件62Advanced Computer ArchitectureThe School of Information Science and Engineering多向量机发展过程多向量机发展过程：CDC7600(CDC,1970)CDC Cyber205(Levine,1982)Memory-MemoryCray 1(Russell,1978)register-registerETA 10(ETA,Inc,1989)Cray Y-MPCray Research1989FujitsuNECHitachi ModelsCray MPPCray Research1993高级体系结构课件63Advanced Computer ArchitectureThe School of Information Science and Engineering其中：其中：CrayY-MP,C90：Y-MP有有2，4，8个处理器，而个处理器，而C90有有16个处理单个处理单元（元（PE），处理速度），处理速度16GFlops。ConvexC3800family：8个处理器，个处理器，4GB主存储器，主存储器，performance为为2GFlops。高级体系结构课件64Advanced Computer ArchitectureThe School of Information Science and Engineering2. 2. SIMD的基本结构的基本结构高级体系结构课件65Advanced Computer ArchitectureThe School of Information Science and EngineeringSIMD的基本结构的基本结构特点特点(1)专用，应用算法相关专用，应用算法相关(2)适合于规则数据运算，不适合于条件分支程适合于规则数据运算，不适合于条件分支程序序发展缓慢的原因发展缓慢的原因(1)指令广播瓶颈指令广播瓶颈(2)数据归约相关性数据归约相关性(3)存储器速度难以提高存储器速度难以提高高级体系结构课件66Advanced Computer ArchitectureThe School of Information Science and EngineeringMasParMP-1：可有可有1024，4096，16384个处理器。在个处理器。在16KPEs，32位整数运算，位整数运算，16KB局部存储器模块的配置局部存储器模块的配置下，可达下，可达26GIPS，单精度浮点运算，单精度浮点运算1.5GFlops，双，双精度浮点运算精度浮点运算650MFlops。CM-2：65536个处理单元，个处理单元，1Mbit/PE。峰值速率为峰值速率为28GFlops，持续速率，持续速率5.6GFlops。SIMD计算机发展过程图如下：计算机发展过程图如下：高级体系结构课件67Advanced Computer ArchitectureThe School of Information Science and EngineeringIlliac IV(1968)GoodYear MPP(1980)BSP(1982)MasPar MP1(1990)IBM GF/11(1985)DAP 610(AMT，Inc.1987)CM2(1990)CM5(1991)高级体系结构课件68Advanced Computer ArchitectureThe School of Information Science and Engineering3.对称式多处理机对称式多处理机SMPSMP：SymmetricMultiProcessorsSharedMemorymultiProcessorsSmallsizeMultiProcessors处理机之间无主从之分，对外有相同的访处理机之间无主从之分，对外有相同的访问权，都有执行操作系统核心和问权，都有执行操作系统核心和I/O服务程序服务程序的能力。的能力。共享存储器、统一地址空间，系统编程比共享存储器、统一地址空间，系统编程比较容易。较容易。CPU可多至可多至16台左右，做服务器用，市场台左右，做服务器用，市场前景好。前景好。高级体系结构课件69Advanced Computer ArchitectureThe School of Information Science and Engineering典型的典型的SMP有有：SunSPARCserver1000SunSPARCcenter2000SGIPowerChallengeSGIPowerChallengeL：2-6CPU，1.8GFlopsSGIPowerChallengeXL：2-18CPU，5.4GFlops*64位位MIPSchip，每周期指令发射数为，每周期指令发射数为4*8路交错主存、带宽为路交错主存、带宽为1.2GB/s *I/O带宽带宽320MB/s（每个控制器），配置（每个控制器），配置4个可达个可达1.2GB/s高级体系结构课件SMP结构结构UMA(Uniform-memory-access)model：物理存储器被所有处理机均匀共享，所有处理机物理存储器被所有处理机均匀共享，所有处理机对所有存储字具有相同的存取时间。对所有存储字具有相同的存取时间。P0I/OP1SM1PnSMnInterConnection Network(Bus、Crossbar、Multistage Network)处理器处理器共享存储器共享存储器高级体系结构课件4.NUMA(NonUniform-memory-access)model：访问时间随存储字的位置不同而变化。访问时间随存储字的位置不同而变化。P1PnLMnInter-Connection NetworkLM1P2LM2高级体系结构课件72Advanced Computer ArchitectureThe School of Information Science and Engineering5.COMA(Cache-onlymemoryarchitecture)：只用高速缓存的多处理机只用高速缓存的多处理机远程高速缓存访问则借助于分布高速缓存目录进行。远程高速缓存访问则借助于分布高速缓存目录进行。PDInterConnection NetworkdistributedcachedirectoriesCPDCPDCKendall Square Researchs KSR-1高级体系结构课件73Advanced Computer ArchitectureThe School of Information Science and EngineeringShared-MemoryMultiprocessors发展过程如下发展过程如下：C mmp(cmu,1972)IllinoisCedar(1987)UltraComputerNYU(1983)Fujitsu VPP500(1992)IBM RP3(1985)BBN Butterfly(1989)stanford/Dash(1992)KSR-1(1990)高级体系结构课件74Advanced Computer ArchitectureThe School of Information Science and Engineering6.MPP系统（分布存储）系统（分布存储）多于多于100个个PE，消息传递，分布存储；，消息传递，分布存储；可扩展，峰值可达可扩展，峰值可达3Tperformance；贵，市场有限；贵，市场有限；持续速度是峰值速度的持续速度是峰值速度的3-10%；可解决某些可解决某些GrandChallenge问题，是国家综问题，是国家综合实力的象征。合实力的象征。高级体系结构课件75Advanced Computer ArchitectureThe School of Information Science and EngineeringDistributed-MemoryMultiprocessorsPMessage-passinginterconnection network(Mesh,ring,torus,hypercube,cube,cycle)MPMPMPPPMMMMPMPMPMP高级体系结构课件76Advanced Computer ArchitectureThe School of Information Science and Engineering例子例子：IntelParagonXP/s：采用采用50MHz的的i860处理器，每个节点处理器，每个节点16-128MB主存储器，采用主存储器，采用2D-Mesh互连，浮点运算互连，浮点运算5-300GFlops，或，或2.8-160Gips。nCube2SModel80：有有4096-8192个个PE，主存储器，主存储器16384-262144MB，浮点运算，浮点运算163800-34000MFlops，整，整数运算数运算61000-123000MIPS。高级体系结构课件77Advanced Computer ArchitectureThe School of Information Science and EngineeringCosmic Cube(1981)nCube-2/6400(1990)Mosaic(1992)Intel paragon(1992)MIT/J machine(1992)intel iPSCs(1983)Distributed-Memorymultiprocessors发展进程：发展进程：高级体系结构课件78Advanced Computer ArchitectureThe School of Information Science and Engineering7.机群系统机群系统NOW：NetworkOfWorkstationsCOW：ClusterOfWorkstations特点特点：投资风险小，软件财富继承性好；投资风险小，软件财富继承性好；可构成异构系统，资源利用率高；可构成异构系统，资源利用率高；通信开销大。通信开销大。一种典型的机群系统结构如下：一种典型的机群系统结构如下：高级体系结构课件79Advanced Computer ArchitectureThe School of Information Science and EngineeringCPU Memory I/OCPU Memory I/OCPU Memory I/OI/OI/OI/OMemoryMemoryMemoryCPUCPUCPUNetwork高级体系结构课件80Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件81Advanced Computer ArchitectureThe School of Information Science and EngineeringMPP和和COW的界限及特征的界限及特征COW的每个节点都是一个完整的工作站（无源工作站）、的每个节点都是一个完整的工作站（无源工作站）、一台一台PC或或SMP；采用低成本的商品网络（如以太网、采用低成本的商品网络（如以太网、FDDI和和ATM开关等）开关等）互连（有的商用机群也使用定做的网络）；互连（有的商用机群也使用定做的网络）；各节点内总是有本地磁盘，而各节点内总是有本地磁盘，而MPP节点内却没有；节点内却没有；节点内的网络接口是松耦合到节点内的网络接口是松耦合到I/O总线上，而总线上，而MPP内的网内的网络接口是连到处理节点的存储总线上，因而可谓是紧耦合络接口是连到处理节点的存储总线上，因而可谓是紧耦合式的；式的；一个完整的操作系统驻留在每个节点中，而一个完整的操作系统驻留在每个节点中，而MPP中通常只中通常只是个微核，是个微核，COW的操作系统是工作站的操作系统是工作站UNIX，加上一个附，加上一个附加的软件层以支持单一系统映像、并行度、通信和负载平加的软件层以支持单一系统映像、并行度、通信和负载平衡等。衡等。MPP和和COW之间的界线越来越模糊。之间的界线越来越模糊。高级体系结构课件82Advanced Computer ArchitectureThe School of Information Science and Engineering其它并行处理计算技术其它并行处理计算技术1.1.数据流技术数据流技术data flowdata flow以数据驱动机制代替控制流机制以数据驱动机制代替控制流机制当功能部件输入端的操作数可用时就启动执行；可开当功能部件输入端的操作数可用时就启动执行；可开发程序中所有的并行性，但费用昂贵，实际性能与发程序中所有的并行性，但费用昂贵，实际性能与功能部件数量、存储器带宽以及挂起和可用部件相功能部件数量、存储器带宽以及挂起和可用部件相匹配的程度有关。匹配的程度有关。如：如：MITMIT的的MonSoosMonSoos，* *T T ETLETL的的Sigma1Sigma1，EM5EM5高级体系结构课件83Advanced Computer ArchitectureThe School of Information Science and Engineering2.2.多线程多线程每台处理机有多个控制线程，同时运行多个现每台处理机有多个控制线程，同时运行多个现场，是实现时延隐藏的一种有效机制。场，是实现时延隐藏的一种有效机制。比如比如: :TeraTera，AlewifeAlewife成本高。成本高。高级体系结构课件84Advanced Computer ArchitectureThe School of Information Science and Engineering3.3.逻辑推理与规约结构逻辑推理与规约结构逻辑推理逻辑推理：日本第五代机，面向逻辑语言、执行速度日本第五代机，面向逻辑语言、执行速度慢，软件与程序设计环境欠丰富。慢，软件与程序设计环境欠丰富。规约结构规约结构：AliceAlice，PGRPGR，面向函数语言，执行速度慢，面向函数语言，执行速度慢，软件与环境欠丰富。软件与环境欠丰富。高级体系结构课件85Advanced Computer ArchitectureThe School of Information Science and Engineering4.4.关键技术关键技术并行算法（数值算法与非数值算法）并行算法（数值算法与非数值算法）并行计算模型并行计算模型互连与通信互连与通信并行存储技术并行存储技术同步与时延隐藏技术同步与时延隐藏技术并行并行I/OI/O划分、调度与负载平衡划分、调度与负载平衡优化编译优化编译并行调试并行调试工具与环境工具与环境高级体系结构课件86Advanced Computer ArchitectureThe School of Information Science and Engineering两类构造两类构造HPC的方式的方式采用定制部件采用定制部件价格较高（小于价格较高（小于1B$市市场）场）对大规模或通信密集的对大规模或通信密集的任务进行了优化设计任务进行了优化设计并行向量机并行向量机采用商用部件采用商用部件利用每年利用每年80B$的市场的市场优势优势对一些计算密集任务有对一些计算密集任务有很好的性能很好的性能MPP机群机群高级体系结构课件87Advanced Computer ArchitectureThe School of Information Science and EngineeringPVP构造方式构造方式PVP采用全定制部采用全定制部件件定制的高性能向量定制的高性能向量处理器（处理器（Gflops)节点内多体交叉共节点内多体交叉共享存储（享存储（GB)定制的高带宽低延定制的高带宽低延迟互连迟互连(交叉开关）交叉开关）高级体系结构课件88Advanced Computer ArchitectureThe School of Information Science and Engineering机群构造方式机群构造方式机群是一组独立的计算机（节点）的集合体：机群是一组独立的计算机（节点）的集合体：机群的各节点都是一个完整的系统：工作站，机群的各节点都是一个完整的系统：工作站，PC机或机或SMP互连通常使用高速互连网络，如互连通常使用高速互连网络，如Myrinet、Infiniband等等各节点可以协同工作并表现为一个单一的、集中的计算资源各节点可以协同工作并表现为一个单一的、集中的计算资源CPUCPUMemoryMemoryI/O ChannelI/O Channel.CPUCPUMemoryMemoryI/O ChannelI/O ChannelCPUCPUMemoryMemoryI/O ChannelI/O ChannelCPUCPUMemoryMemoryI/O ChannelI/O ChannelCPUCPUMemoryMemoryI/O ChannelI/O ChannelSystem Area Network & Storage Area NetworkSystem Area Network & Storage Area Network高级体系结构课件89Advanced Computer ArchitectureThe School of Information Science and Engineering从Top500看高性能计算的现状从Top500看高性能计算机现状（2010.11）最快的高性能计算机：最快的高性能计算机：2.566Pflops2.566Pflops 最普遍的高性能计算机：机群（最普遍的高性能计算机：机群（415415台）台）安装高性能计算机最多的国家：美国（安装高性能计算机最多的国家：美国（274274台），亚洲（台），亚洲（8383台，台，日本日本2626台，中国台，中国4141台，印度台，印度4 4台），欧洲（台），欧洲（126126台）台）生产高性能计算机的企业：生产高性能计算机的企业：HPHP（159159台），台），IBMIBM（200200台）台）高性能计算机中使用最多的微处理器：高性能计算机中使用最多的微处理器：IntelIntel系列（系列（398398台），台），IBM(42IBM(42台），台），AMDAMD（5757台）台）高性能计算机使用最广泛的领域：企业与研究结构高性能计算机使用最广泛的领域：企业与研究结构进入进入500500强的最低性能：强的最低性能：31.11Tflops31.11Tflops，半年前为，半年前为24.67Tflops24.67Tflops 500500强的总性能为：强的总性能为： 43.65Pflops43.65Pflops，半年前为，半年前为32.43432.434PflopsPflops高级体系结构课件90Advanced Computer ArchitectureThe School of Information Science and Engineering2010/11 Top500前5位一览表高级体系结构课件91Advanced Computer ArchitectureThe School of Information Science and Engineering近几年来近几年来Top1机器机器 20012001年，为年，为IBM ASCI WHITEIBM ASCI WHITE，LINPACKLINPACK峰值为峰值为12TFLOPS12TFLOPS，处，处理器数目为理器数目为81928192。 20022002年年20042004年上半年，为年上半年，为NEC Earth-SimulatorNEC Earth-Simulator，LINPACKLINPACK峰峰值为值为40TFLOPS40TFLOPS，处理器数目为，处理器数目为51205120。 20042004年下半年年下半年20072007年年1111月，为月，为IBM BlueGeneIBM BlueGene，LINPACKLINPACK峰值峰值为为478TFLOPS478TFLOPS，处理器数目为，处理器数目为212992212992。 20082008年年6 6月，月，Top1Top1为为IBM RoadrunnerIBM Roadrunner（走鹃），（走鹃），LINPACKLINPACK峰值为峰值为1.026PFLOPS1.026PFLOPS，处理器核数目为，处理器核数目为122400122400。 20092009年年6 6月，月，Top1Top1为为IBM RoadrunnerIBM Roadrunner（走鹃）（走鹃），LINPACKLINPACK峰值为峰值为1.105PFLOPS1.105PFLOPS，处理器核数目为，处理器核数目为129600129600。 20092009年年1111月月- 2010- 2010年年6 6月，月， Top1Top1为为JaguarJaguar，峰值为峰值为1.759PFLOPS1.759PFLOPS，处理器核数目为，处理器核数目为224162224162。 20102010年年1111月，月， Top1Top1为为TH-1ATH-1A，峰值为峰值为2.566PFLOPS2.566PFLOPS，处理器核，处理器核数目为数目为186368186368。高级体系结构课件92Advanced Computer ArchitectureThe School of Information Science and EngineeringASCI BlueGene/L采用采用专门的专门的System-on-a-chip技术技术减少功耗、体积、复杂度减少功耗、体积、复杂度和设计难度和设计难度实现低延迟、高带宽存储系统实现低延迟、高带宽存储系统MPP结构结构可扩展到可扩展到100k处理器处理器采用三种互连网络：采用三种互连网络：Gbit以太网用于节点内部以太网用于节点内部3DTorus用于节点间用于节点间树用于多播通信树用于多播通信高级体系结构课件93Advanced Computer ArchitectureThe School of Information Science and EngineeringASCI BlueGene/L构造图高级体系结构课件94Advanced Computer ArchitectureThe School of Information Science and EngineeringASCI BlueGene/L性能比较高级体系结构课件95Advanced Computer ArchitectureThe School of Information Science and Engineering95IBM Roadrunner 走鹃（1）高级体系结构课件96Advanced Computer ArchitectureThe School of Information Science and Engineering国家高性能计算中心（合肥）962024/9/13IBM Roadrunner（2）基本参数（基本参数（20082008年年6 6月）月） 6,480 AMD Opteron 6,480 AMD Opteron 处理器，处理器，51.8 TB51.8 TB内存内存 (in (in 3,240 LS21 3,240 LS21 刀片刀片) ) 12,960 IBM Cell 12,960 IBM Cell 处理器，处理器，51.8 TB 51.8 TB 内存内存(in 6,480 (in 6,480 QS22 QS22 刀片刀片) ) 216 System x3755 I/O 216 System x3755 I/O 节点节点 26 288-port ISR2012 Infiniband 4x DDR switches 26 288-port ISR2012 Infiniband 4x DDR switches 296 296 机架机架 2.35 MW power 2.35 MW power 1.026PFLOPS1.026PFLOPS高级体系结构课件97Advanced Computer ArchitectureThe School of Information Science and Engineering972024/9/13IBM Roadrunner（3）混合（混合（HybridHybrid）设计（设计（20082008年年6 6月）月）通用处理器通用处理器+ +专用处理器专用处理器采用两种不同架构的处理器：采用两种不同架构的处理器： 1.8G AMD Opteron1.8G AMD Opteron双核处理器（双核处理器（X86X86架构）架构） 6912 6912 个处理器个处理器 (6480 (6480个用于计算节点个用于计算节点, 432 , 432 个用于系统操作和通信节点个用于系统操作和通信节点) ) 共共1382413824个个 cores (12960+864) cores (12960+864) 3.2G IBM PowerXCell 8i 3.2G IBM PowerXCell 8i 异构多核处理器异构多核处理器数学运算比数学运算比OpteronOpteron快快3030倍倍 1 1个通用核个通用核 ( (P Power ower P Processing rocessing E Elementlement ：PPE)PPE)，8 8个专用核个专用核 ( (S Synergistic ynergistic P Processing rocessing E Elementlement：SPE) (SPE) (共有共有9 9个处理器核个处理器核) ) 1296012960个个 PPE cores PPE cores 和和 103680 103680个个 SPE cores SPE cores 共共116640116640个个 cores (12960+ 103680) cores (12960+ 103680) 系统共有系统共有130464130464个个 cores (13824+ 116640) cores (13824+ 116640)高级体系结构课件98Advanced Computer ArchitectureThe School of Information Science and Engineering98IBM Roadrunner（4）刀片式机群架构刀片式机群架构（20082008年年6 6月）月）每个每个TribladeTriblade包含包含4 4个刀片，一个个刀片，一个 LS21 Opteron LS21 Opteron 刀片，一个扩展刀片，一个扩展连接刀片，两个连接刀片，两个 QS22 Cell QS22 Cell刀片。刀片。 LS21LS21包含包含2 2个个 1.8 GHz 1.8 GHz 双核双核OpteronsOpterons，16 GB 16 GB 内存内存。 QS22QS22包含包含2 2个个 3.2 GHz PowerXCell 8i 3.2 GHz PowerXCell 8i 处理器，处理器， 8GB 8GB内存。内存。高级体系结构课件99Advanced Computer ArchitectureThe School of Information Science and Engineering国家高性能计算中心（合肥）992024/9/13IBM Roadrunner（5）一个一个TribladeTriblade包含包含4 4个刀片个刀片一个一个Blade Center H Blade Center H 框包含框包含3 3个个TribladeTriblade 一个机架一个机架(rack)(rack)包含包含4 4个个Blade Center HBlade Center H 一个连接单元一个连接单元CU(Connected Unit)CU(Connected Unit)包含包含1515个机架个机架 RoadbunnerRoadbunner包含包含1818个个CUCU，通过两级，通过两级InfinibandInfiniband互连互连高级体系结构课件100Advanced Computer ArchitectureThe School of Information Science and Engineering最快的并行向量计算机最快的并行向量计算机-ES体系结构：并行向量机体系结构：并行向量机峰值速度峰值速度/存储器：存储器：40Tflops/10TB节点数节点数/处理器数处理器数/处理器峰值：处理器峰值：640/5120/8Gflops占地：六个篮球场大占地：六个篮球场大3层建筑层建筑安装时间：安装时间：2002/2月月主要用途：主要用途：全球气候变化预测、全球气候变化预测、地震预报、原子能等地震预报、原子能等高级体系结构课件101Advanced Computer ArchitectureThe School of Information Science and EngineeringTOP500中的机群机群系统在高性能计机群系统在高性能计算机中所占比例迅速算机中所占比例迅速增加增加TOP500中目前有中目前有365个机群系统个机群系统TOP500中最普通的并中最普通的并行机体系结构行机体系结构导致了高性能计算机的导致了高性能计算机的“平民化平民化”高级体系结构课件102Advanced Computer ArchitectureThe School of Information Science and Engineering中国的高端高性能机群 20082008年年1111月月, ,第第3232届届HPC Top500HPC Top500榜榜曙光曙光5000A5000A排名第排名第1010， LINPACKLINPACK峰值峰值180.6180.6TFLOPSTFLOPS 联想联想DeepComp7000DeepComp7000排名第排名第1919， LINPACKLINPACK峰值峰值102.8TFLOPS102.8TFLOPS 20092009年年1111月月, ,第第3434届届HPC Top500HPC Top500榜榜天河天河1 1号排名第号排名第5 5， LINPACKLINPACK峰值峰值563.1TFLOPS563.1TFLOPS 曙光曙光5000A5000A排名第排名第1919，LINPACKLINPACK峰值峰值180.6TFLOPS180.6TFLOPS 联想联想DeepComp7000DeepComp7000排名第排名第4343， LINPACKLINPACK峰值峰值102.8TFLOPS102.8TFLOPS 20102010年年0606月月, ,第第3535届届HPC Top500HPC Top500榜榜曙光星云（曙光星云（ Nebulae Nebulae）排名第）排名第2 2，LINPACKLINPACK峰值峰值1271TFLOPS1271TFLOPS 天河天河1 1号排名第号排名第7 7， LINPACKLINPACK峰值峰值563.1TFLOPS563.1TFLOPS 20102010年年1111月月, ,第第3636届届HPC Top500HPC Top500榜榜天河天河1A1A排名第排名第1 1， LINPACKLINPACK峰值峰值2566TFLOPS2566TFLOPS 曙光星云（曙光星云（ Nebulae Nebulae）排名第）排名第3 3，LINPACKLINPACK峰值峰值1271TFLOPS1271TFLOPS高级体系结构课件103Advanced Computer ArchitectureThe School of Information Science and Engineering 中国的高端高性能机群中国的高端高性能机群曙光曙光- -星云星云高性能：实测峰值达每秒高性能：实测峰值达每秒12711271万亿次，亚洲和中国第一台、世界第三台实测性能超万亿次，亚洲和中国第一台、世界第三台实测性能超千万亿次的超级计算机千万亿次的超级计算机高效能：采用自主设计的高效能：采用自主设计的HPPHPP体系结构、高效异构协同计算技术，高效易用的编程体系结构、高效异构协同计算技术，高效易用的编程环境，极大方便用户操作应用环境，极大方便用户操作应用高可靠：采用全冗余设计，无单一故障点高可靠：采用全冗余设计，无单一故障点高密度：单柜峰值高达高密度：单柜峰值高达25.7TFlops25.7TFlops，国内同类系统单位面积计算峰值最高，国内同类系统单位面积计算峰值最高低功耗：每瓦能耗实测性能超过低功耗：每瓦能耗实测性能超过4.984.98亿次，是目前国内最绿色的超级计算机亿次，是目前国内最绿色的超级计算机低成本：关键部件标准化和产业化，大大节省扩容成本低成本：关键部件标准化和产业化，大大节省扩容成本天河天河1A1A 高自主：使用国产高自主：使用国产CPUCPU飞腾飞腾FT-1000FT-1000八核处理器，使用国产高速互联交换芯片八核处理器，使用国产高速互联交换芯片“NRC”“NRC” 高性能：峰值运算速度高性能：峰值运算速度47014701万亿次，实测万亿次，实测LinpackLinpack值值25662566万亿次；内存万亿次；内存229TB229TB，存，存储容量储容量2P2P 高效能：每瓦实测性能高效能：每瓦实测性能6.356.35亿次，亿次，Green500Green500公布的公布的20102010年年1111月数据排名第月数据排名第1111位位高安全：系统管理员无法进入用户信息系统查看任何信息，保障用户数据的安全可高安全：系统管理员无法进入用户信息系统查看任何信息，保障用户数据的安全可靠靠易使用：刀片结构，利用高偏上的特定电路，自检系统可以迅速定位刀片位置，便易使用：刀片结构，利用高偏上的特定电路，自检系统可以迅速定位刀片位置，便于维修于维修高级体系结构课件104Advanced Computer ArchitectureThe School of Information Science and Engineering从从Top500看高性能计算的趋势（看高性能计算的趋势（1）关于计算机结构：关于计算机结构：机群系统仍将是高性能机群系统仍将是高性能计算机最常用的结构计算机最常用的结构MPP仍然是一个重要结仍然是一个重要结构构,尤其是作为尤其是作为Pflops超级计算机的主要结构超级计算机的主要结构PVP是另一种获得超高是另一种获得超高性能的重要结构，但不性能的重要结构，但不是主流是主流高级体系结构课件105Advanced Computer ArchitectureThe School of Information Science and Engineering从从Top500看高性能计算的趋势（看高性能计算的趋势（2）关于微处理器：关于微处理器：主要是采用主要是采用CMOS工艺的商工艺的商用微处理器用微处理器Intel处理器家族仍将是高性能处理器家族仍将是高性能计算机中占统治地位的处理器，计算机中占统治地位的处理器，其基于其基于EM64T的处理器已被证的处理器已被证明非常适合于高性能计算明非常适合于高性能计算（118台）台）基于基于RISC的的IBMPower体系也体系也会有一席之地会有一席之地AMD地位稳定上升地位稳定上升专用的处理器仍然存在，但专用的处理器仍然存在，但逐渐减少逐渐减少向量处理器向量处理器片上系统片上系统适用于最高端系统适用于最高端系统高级体系结构课件106Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算与高性能计算机高性能计算的意义高性能计算的内在含义高性能计算的应用需求高性能计算的战略地位高性能计算发展与现状高性能计算机的发展高性能计算的现状高性能计算面临的主要问高性能计算面临的主要问题题功耗功耗存储存储(memory wall)(memory wall)编程编程(programming wall)(programming wall)高性能计算的未来Petaflops超级计算机展望若干新技术中国高性能计算的机遇和挑战高级体系结构课件107Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算面临的主要问题高性能计算面临的主要问题-功耗功耗功耗大、空间大、散热大功耗大、空间大、散热大占地均在数百占地均在数百数千平方米，功耗在数兆瓦数千平方米，功耗在数兆瓦综合成本急剧增加，高达数亿美元综合成本急剧增加，高达数亿美元如如ASCI系统和系统和ES系统系统峰值峰值（Tflops）占地占地（m2功耗功耗（KW）Glops/m2Glops/KW时间时间BlueGene/L36723015001595652452005ASCI.Purple77.826247800124.729.972005RedStorm43.52791700155.9125.592005Earth-Simulator403060800013.0752002ASCI.Q301858710016.144.232004高级体系结构课件108Advanced Computer ArchitectureThe School of Information Science and Engineering地球仿真器的专用建筑群地球仿真器的专用建筑群高级体系结构课件109Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算面临的主要问题高性能计算面临的主要问题-存储存储Memorywall：存储器访问能力与处理部件计算：存储器访问能力与处理部件计算能力的不平衡能力的不平衡处理器速度每年提高处理器速度每年提高59%，高性能计算速度提高更快，高性能计算速度提高更快存储器速度每年提高存储器速度每年提高7%处理器性能与数据访问带宽和延迟之间的差距越来越处理器性能与数据访问带宽和延迟之间的差距越来越大大必须从系统存储体系结构上创新，改进时延机制，以必须从系统存储体系结构上创新，改进时延机制，以提供更高的带宽和更低的延迟。提供更高的带宽和更低的延迟。目前对三类超级计算机（定制、混合与商业）的主要目前对三类超级计算机（定制、混合与商业）的主要区别在于针对不同的存储访问模式所能提供的有效本区别在于针对不同的存储访问模式所能提供的有效本地和全局存储访问带宽。地和全局存储访问带宽。高级体系结构课件110Advanced Computer ArchitectureThe School of Information Science and EngineeringProc60%/yr.(2X/1.5yr)DRAM9%/yr.(2X/10 yrs)110100100019851986198819891990199119921993199419951996199719981999200020012002200320042005DRAMCPU1987Processor-MemoryPerformanceGap:(grows50%/year)PerformanceTime“Moores Law”Processor-Memory Gap高级体系结构课件111Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算面临的主要问题高性能计算面临的主要问题-编程编程Programmingwall:系统规模增大到系统规模增大到10万个以上万个以上处理器，系统结构复杂（数据共享与消息通信模处理器，系统结构复杂（数据共享与消息通信模式交织），为超级计算机编写高效健壮程序越来式交织），为超级计算机编写高效健壮程序越来越复杂，越来越困难。越复杂，越来越困难。高性能机器上的程序设计语言、库和应用开发环境的高性能机器上的程序设计语言、库和应用开发环境的进展比广泛应用的工业软件差很多进展比广泛应用的工业软件差很多没有广泛应用的并行程序设计模型没有广泛应用的并行程序设计模型软件的研制周期大于硬件的研制周期软件的研制周期大于硬件的研制周期高端计算的真正危机在于软件高端计算的真正危机在于软件高级体系结构课件112Advanced Computer ArchitectureThe School of Information Science and Engineering高性能计算与高性能计算机高性能计算的意义高性能计算的内在含义高性能计算的应用需求高性能计算的战略地位高性能计算发展与现状高性能计算机的发展高性能计算的现状高性能计算面临的主要问题功耗存储(memory wall)编程(programming wall)高性能计算的未来高性能计算的未来PetaflopsPetaflops超级计算机展望超级计算机展望若干新技术若干新技术中国高性能计算的机遇和挑战中国高性能计算的机遇和挑战高级体系结构课件113Advanced Computer ArchitectureThe School of Information Science and Engineering千万亿次超级计算机的应用需求应用领域应用领域应用需求应用需求持续性能需求持续性能需求存储容量需求存储容量需求生物医学生物医学蛋白质电子态的计算蛋白质电子态的计算药物发明中的筛选过程药物发明中的筛选过程蛋白质折叠蛋白质折叠100Tflops800Tflops1Pflops30TB200TB1PB航空航天制造航空航天制造发动机燃烧模拟和机翼设计模拟发动机燃烧模拟和机翼设计模拟500Tflops100TB气候环境气候环境短期天气预报短期天气预报长期天气预报长期天气预报局部突发性灾难预报（如洪水、海啸）局部突发性灾难预报（如洪水、海啸）20Tflops200Tflops1Pflops10TB100TB500TB核能领域核能领域完全等离子分析（包括电子结构分析）完全等离子分析（包括电子结构分析）核武器数值模拟核武器数值模拟天然气燃烧天然气燃烧500Tflops1Pflops1Pflops1PB1PB1PB纳米技术纳米技术复合材料的结构分析和功能预测复合材料的结构分析和功能预测新材料发明新材料发明200Tflops1Pflops400TB2PB天体物理学天体物理学超新星三维模拟超新星三维模拟1Pflops1PB国防和国家安全国防和国家安全密码破译密码破译先进武器模拟先进武器模拟1Pflops1Pflops1PB1PB高级体系结构课件114Advanced Computer ArchitectureThe School of Information Science and Engineering千万亿次超级计算机研究-HPCS计划从从2002年起的两年多时间里，年起的两年多时间里，ES占据占据TOP1位置位置Cluster并不是并不是HPC的最终体的最终体系结构系结构美国美国DARPA于于2002年启动高年启动高生产率计算系统（生产率计算系统（HighProductivityComputingSystems)HPCS计划计划希望确定未来希望确定未来10年甚至年甚至20年的高年的高性能计算机体系结构性能计算机体系结构高生产率而非峰值计算能力作为高生产率而非峰值计算能力作为评价指标评价指标高性能计算的一个新的创新时代高性能计算的一个新的创新时代的开始的开始摘自摘自DARPA-Grayhill.pdfDARPA-Grayhill.pdf高级体系结构课件115Advanced Computer ArchitectureThe School of Information Science and EngineeringHPCS计划三个阶段摘自摘自DARPA-Grayhill.pdfDARPA-Grayhill.pdf高级体系结构课件116Advanced Computer ArchitectureThe School of Information Science and EngineeringHPCS的设计策略摘自摘自DARPA-Grayhill.pdfDARPA-Grayhill.pdf高级体系结构课件117Advanced Computer ArchitectureThe School of Information Science and EngineeringHPCS当前的状态目前正在进行第2阶段为期36个月的研发阶段参加的企业有CrayIBMSun三家每个企业的关键技术路线：Cray: Cascade计划（定制处理器、PIM（Processor In Memory)IBM: PERCS计划(Productive、Easy-to-use、Reliable Computing System)Sun: HERO项目(独特的芯片间互连、异步信号处理、光互连技术）在处理器、存储器、互联网络上采取很多颠覆性的创新如普遍采用CMP（片上多处理器）PIM（Processor In Memory)sea-of-memory光互连高级体系结构课件118Advanced Computer ArchitectureThe School of Information Science and Engineering千亿次超级计算机研究-其他项目IBMBlueGeneBG/P系统，百万个低功耗集成芯片达到系统，百万个低功耗集成芯片达到PetaFlops，预计到，预计到2006年年BG/Q系统，系统，3Pflops峰值峰值/1Pflops持续性能，预计到持续性能，预计到2007年底年底StanfordMerrimac计划计划采用专门的流式（采用专门的流式（streaming）处理器）处理器每个节点集成每个节点集成128个个1Ghz的浮点处理单元的浮点处理单元8192个节点达到个节点达到2PetaFlops日本文部省日本文部省MEXT计划计划投入投入1000亿日元亿日元NEC、日立、东京大学、九州大学、物化所、日立、东京大学、九州大学、物化所10Pflops，2011年年日本的日本的ProteinExplorer针对应用算法专门定制针对应用算法专门定制目前已有专门用于分子动力学模拟的目前已有专门用于分子动力学模拟的MDM，峰值超过，峰值超过ES后续的分析蛋白质分子作用的后续的分析蛋白质分子作用的ProteinExplorer可能成为第一个可能成为第一个Pflops机器机器高级体系结构课件119Advanced Computer ArchitectureThe School of Information Science and Engineering未来结构展望千万亿次系统的主流结构仍然是千万亿次系统的主流结构仍然是MPP技术技术可重构计算结构：可重构计算结构：系统的主要逻辑通过重构机制控制，在一定范围内调整变化，以系统的主要逻辑通过重构机制控制，在一定范围内调整变化，以提高不同应用程序核心算法的运行效率提高不同应用程序核心算法的运行效率可在芯片内、芯片间、部件间甚至在子系统之间可在芯片内、芯片间、部件间甚至在子系统之间体现在互联结构、存储结构、体现在互联结构、存储结构、IO结构结构典型系统：典型系统：SRC-6E、IBMPERCS流式结构：流式结构：StanfordMerrimac计划计划专用器件结构：专用器件结构：特殊应用核心算法优化的硬连线计算结构，利用超高速硬件技术特殊应用核心算法优化的硬连线计算结构，利用超高速硬件技术提供更高的逻辑密度提供更高的逻辑密度典型系统：日本的典型系统：日本的MDGRAPE混合异构结构混合异构结构利用现有的高性能计算机资源作为节点互连构成的集成计算机系利用现有的高性能计算机资源作为节点互连构成的集成计算机系统统节点可以是快速标量部件、向量部件、节点可以是快速标量部件、向量部件、FPGA、可视化引擎、可视化引擎典型系统：克雷的典型系统：克雷的Rainier、SGI的多范例计算的多范例计算高级体系结构课件120Advanced Computer ArchitectureThe School of Information Science and Engineering若干新技术若干新技术光技术光技术光互连：光纤互连、光波导、自由空间光互连光互连：光纤互连、光波导、自由空间光互连全息存储：信息以光栅的形式存储于晶体中，高带宽，高密度全息存储：信息以光栅的形式存储于晶体中，高带宽，高密度量子计算机量子计算机由利用量子效应作为工作基础的量子器件组成由利用量子效应作为工作基础的量子器件组成利用量子相干叠加原理，使得基于量子位的量子计算利用量子相干叠加原理，使得基于量子位的量子计算具有强大的并行性具有强大的并行性问题：量子逻辑的一致性，环境隔离等问题：量子逻辑的一致性，环境隔离等分子计算机分子计算机用大量（分子数用大量（分子数1020）分子参与计算，以空间换时间来提高计算）分子参与计算，以空间换时间来提高计算能力能力高度并行，功耗小高度并行，功耗小问题：操作慢，操作不可靠，问题：操作慢，操作不可靠，DNA分子容易水解等分子容易水解等高级体系结构课件121Advanced Computer ArchitectureThe School of Information Science and Engineering中国高性能计算的机遇与挑战中国高性能计算的机遇与挑战现状：现状：中国已具备自行研制高性能计算机系统的能力中国已具备自行研制高性能计算机系统的能力系统国产化程度不高系统国产化程度不高处理器、高速网络处理器、高速网络等关键部件还主要靠进口等关键部件还主要靠进口高性能计算软件是最大瓶颈高性能计算软件是最大瓶颈应用软件的开发的投入力度不够，制约了高性能计算的普应用软件的开发的投入力度不够，制约了高性能计算的普及及机遇：机遇：高性能计算机系统开始了新一轮探索，需要创新思想高性能计算机系统开始了新一轮探索，需要创新思想廉价的机群系统带来了高性能计算机普及和廉价的机群系统带来了高性能计算机普及和“平民化平民化”对提高生产率，更有效解决实际应用提出了更高要求对提高生产率，更有效解决实际应用提出了更高要求集成电路生产基地向中国转移和国产通用集成电路生产基地向中国转移和国产通用CPU技术的突破技术的突破挑战：挑战：集中力量研制包括国产集中力量研制包括国产CPU、系统互连网络在内的全、系统互连网络在内的全自主产权的高性能计算机系统，加大对软件的投入自主产权的高性能计算机系统，加大对软件的投入高级体系结构课件122Advanced Computer ArchitectureThe School of Information Science and EngineeringComputerArchitecture(rewiew)ComputerArchitecture(rewiew)Understandingimportantemergingdesigntechniques,machinestructures,technologyfactors,evaluationmethodsthatwilldeterminetheformofhigh-performanceprogrammableprocessorsandcomputingsystemsinnewCentury.TechnologyProgrammingLanguagesOperatingSystemsHistoryApplicationsInterfaceDesign(ISA)Measurement&EvaluationParallelismComputer Architecture:Instruction Set DesignOrganizationHardware高级体系结构课件123Advanced Computer ArchitectureThe School of Information Science and EngineeringAdvancedComputerArchitectureAdvancedComputerArchitectureImportantFactors:DrivingForce:Applicationswithdiverseandincreasedcomputationaldemandseveninmainstreamcomputing(multimediaetc.)Techniquesmustbedevelopedtoovercomethemajorlimitationsofcurrentcomputingsystemstomeetsuchdemands:ILPlimitations,Memorylatency,IOperformance.Increasedbranchpenalty/otherstallsindeeplypipelinedCPUs.General-purposeprocessorsasonlyhomogeneoussystemcomputingresource.EnablingTechnologyformanypossiblesolutions:IncreaseddensityofVLSIlogic(onebilliontransistorsin)Enablesahigh-levelofsystem-levelintegration.高级体系结构课件124Advanced Computer ArchitectureThe School of Information Science and Engineering计算机体系结构的定义(Review)Theattributesofacomputingsystemasseenbytheprogrammer,i.e.,Theconceptualstructureandfunctionalbehavior,asdistinctfromtheorganizationofthedataflowsandcontrolsthelogicdesign,andthephysicalimplementation.Amdahl,Blaaw,andBrooks,1964对计算机系统而言是指那些由程序员可见的系统属性对计算机系统而言是指那些由程序员可见的系统属性所指的程序员所指的程序员汇编语言、机器语言、编译程序、操作系统汇编语言、机器语言、编译程序、操作系统程序员所看到的程序员所看到的数据表示、数据表示、寻址方式、寄存器组织、指令系统、中断寻址方式、寄存器组织、指令系统、中断系统、存储系统、系统、存储系统、CPUCPU状态状态、I/OI/O系统、信息保护等系统、信息保护等高级体系结构课件125Advanced Computer ArchitectureThe School of Information Science and Engineering计算机系统结构正确定义高级体系结构课件126Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件127Advanced Computer ArchitectureThe School of Information Science and EngineeringComputerArchitectureTopicsMInterconnectionNetworkSPMPMPMP.Topologies,Routing,Bandwidth,Latency,ReliabilityNetworkInterfacesSharedMemory,MessagePassing,DataParallelismProcessor-Memory-SwitchMultiprocessorsNetworksandInterconnections高级体系结构课件128Advanced Computer ArchitectureThe School of Information Science and EngineeringMicroprocessorMicroprocessorComputerSystemComponentsComputerSystemComponentsSDRAMPC100/PC133100-133MHZ64-128 bits wide2-way inteleaved 900 MBYTES/SECDouble DateRate (DDR) SDRAMPC3200400MHZ (effective 200x2)64-128 bits wide4-way interleaved3.2 GBYTES/SEC(second half 2002)RAMbus DRAM (RDRAM)PC800, PC1060 400-533MHZ (DDR)16-32 bits wide channel 1.6 - 3.2 GBYTES/SEC ( per channel)CPUCachesSystem BusI/O Devices:MemoryControllersadaptersDisksDisplaysKeyboardsNetworksNICsI/O BusesMemoryControllerExamples: Alpha, AMD K7: EV6, 400MHZ Intel PII, PIII: GTL+ 133MHZ Intel P4 800MHZExample: PCI-X 133MHZ PCI, 33-66MHZ 32-64 bits wide 133-1024 MBYTES/SEC1000MHZ - 3 GHZ (a multiple of system bus speed)Pipelined ( 7 -21 stages )Superscalar (max 4 instructions/cycle) single-threadedDynamically-Scheduled or VLIWDynamic and static branch predictionL1L2 L3Memory BusSupport for one or more CPUsFast EthernetGigabit EthernetATM, Token Ring .NorthBridgeSouthBridgeChipset高级体系结构课件129Advanced Computer ArchitectureThe School of Information Science and EngineeringMicroprocessorComputerMicroprocessorComputerSystemComponentsSystemComponentsCPUCachesSystemBusI/O Devices:MemoryControllersadaptersDisks (RAID)DisplaysKeyboardsNetworksNICsI/O BusesMemoryControllerL1L2 L3Memory BusConventional & Block-based Trace Cache.Integrate MemoryController & a portionof main memory with CPU: Intelligent RAMIntegrated memory Controller: AMD OpetronIBM Power5 Memory Latency Reduction:Enhanced CPU Performance & Capabilities: Support for Simultaneous Multithreading (SMT): Alpha EV8. VLIW & intelligent compiler techniques: Intel/HP EPIC IA-64. More Advanced Branch Prediction Techniques. Chip Multiprocessors (CMPs): The Hydra Project. IBM Power 4,5 Vector processing capability: Vector Intelligent RAM (VIRAM). Or Multimedia ISA extension. Digital Signal Processing (DSP) capability in system. Re-Configurable Computing hardware capability in system.SMTCMPNorthBridgeSouthBridgeChipset高级体系结构课件130Advanced Computer ArchitectureThe School of Information Science and Engineering处理器并行度的开发高级体系结构课件131Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件132Advanced Computer ArchitectureThe School of Information Science and Engineering芯片级并行性芯片级并行性特点独立的控制流分离的内部状态没有共享的功能部件分类同构多核Core 2 Duo异构多核Cell处理器网络处理器EXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystem Bus (667MHz, 5333MB/s)高级体系结构课件133Advanced Computer ArchitectureThe School of Information Science and Engineering芯片级并行性芯片级并行性性能比较CPU芯片降低15%工作电压的结果主频降低15%功耗降低45%性能下降10%单核芯片面积=1电压 = 1主频=1功耗=1性能=1双核芯片面积=2电压 = 0.85主频=0.85功耗=1.1性能=1.8高级体系结构课件134Advanced Computer ArchitectureThe School of Information Science and Engineering芯片级并行性芯片级并行性芯片面积与性能多核性能单核性能晶体管数（面积）性能性能高级体系结构课件135Advanced Computer ArchitectureThe School of Information Science and Engineering芯片级并行性芯片级并行性一个大核与多个小核的比较cache大核小核小核小核小核cache功耗：性能：功耗：性能：高级体系结构课件136Advanced Computer ArchitectureThe School of Information Science and Engineering136Multicore Products NowadaysLotsofdual-coreproductsnow:Intel:PentiumDandPentiumExtremeEdition,CoreDuo(2),Woodcrest,MontecitoIBMPowerPCAMDOpteron/Athlon64SunUltraSPARCIV.Systemswithmorethantwocoresareherewithmorecoming:IBMCell(asymmetric).Dual-corePowerPCpluseight“synergisticprocessingelements”.SunNiagaraEightcores,fourhyper-threadedthreadspercore.GeneralPurposeComputationonGraphicsProcessors(GPGPU)Intelexpectstoproduce16-oreven32-corechipswithinadecade.高级体系结构课件137Advanced Computer ArchitectureThe School of Information Science and Engineering137Architecture of Dual-Core ChipsAMD OpteronSeparate 1 Mbyte L2 cachesImprovement for Memory affinity and Thread affinityEXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystem Bus (667MHz, 5333MB/s)INTEL CORE DUOTwo physical cores in a packageEach with its own execution resourcesEach with its own L1 cache32K instruction and 32K dataBoth cores share the L2 cache2MB 8-way set associative; 64-byte line size 10 clock cycles latency; Write Back update policy 高级体系结构课件138Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件139Advanced Computer ArchitectureThe School of Information Science and Engineering139Intel Multi-core Plan高级体系结构课件140Advanced Computer ArchitectureThe School of Information Science and Engineering140Intel Multi-core Plan高级体系结构课件141Advanced Computer ArchitectureThe School of Information Science and EngineeringIntelstera-scalechip高级体系结构课件142Advanced Computer ArchitectureThe School of Information Science and Engineering142Cell from IBM and Sony高级体系结构课件143Advanced Computer ArchitectureThe School of Information Science and Engineering143Cell from IBM and Sony高级体系结构课件144Advanced Computer ArchitectureThe School of Information Science and EngineeringIntel 80核芯片(2007)80个处理核心1 Teraflop 100亿次运算/瓦特主频3.1GHz 面积 300mm，各CPU内核与内存1对1地连接，分别拥有256MBps的内存带宽32MB的片上静态RAM 。单芯片整体的内存带宽达到了1TB/s 13.75mm * 22 mm 高级体系结构课件145Advanced Computer ArchitectureThe School of Information Science and EngineeringIBM POWER7(2010)高级体系结构课件146Advanced Computer ArchitectureThe School of Information Science and Engineering146Niagara from SUN高级体系结构课件147Advanced Computer ArchitectureThe School of Information Science and Engineering147GPUTransformCPUApplicationRasterizeShadeVideoMemory(Textures)Xformed, Lit Vertices (2D)Graphics StateRender-to-textureAssemblePrimitivesVertices (3D)Screenspace triangles (2D)Fragments (pre-pixels)Final Pixels (Color, Depth)Programmable vertex processor!Programmable pixel processor!FragmentProcessorGPUFundamentals:TheModernGraphicsPipelineVertexProcessorGeometryProcessor高级体系结构课件148Advanced Computer ArchitectureThe School of Information Science and Engineering148GPUFundamentals:TheModernGraphicsPipeline高级体系结构课件149Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件150Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件151Advanced Computer ArchitectureThe School of Information Science and Engineering高级体系结构课件152Advanced Computer ArchitectureThe School of Information Science and EngineeringFor a specific program compiled to run on a specific machine “A”, the following parameters are provided: Thetotalinstructioncountoftheprogram.Theaveragenumberofcyclesperinstruction(averageCPI).Clockcycleofmachine“A”How can one measure the performance of this machine running this program?Intuitivelythemachineissaidtobefasterorhasbetterperformancerunningthisprogramifthetotalexecutiontimeisshorter.Thustheinverseofthetotalmeasuredprogramexecutiontimeisapossibleperformancemeasureormetric: PerformanceA=1/ExecutionTimeAHowtocompareperformanceofdifferentmachines?Whatfactorsaffectperformance?Howtoimproveperformance?ComputerPerformanceMeasures:ProgramExecutionTime高级体系结构课件153Advanced Computer ArchitectureThe School of Information Science and EngineeringCPUExecutionTime:TheCPUEquationCPUExecutionTime:TheCPUEquationA program is comprised of a number of instructions, IMeasuredin:instructions/programThe average instruction takes a number of cycles per instruction (CPI) to be completed. Measuredin:cycles/instructionIPC(InstructionsPerCycle)=1/CPICPU has a fixed clock cycle time C=1/clockrate Measuredin:seconds/cycle CPU execution time is the product of the above three parameters as follows: CPUTime=ICxCPIxCCCPUtime=Seconds=InstructionsxCyclesxSecondsProgramProgramInstructionCycle高级体系结构课件154Advanced Computer ArchitectureThe School of Information Science and EngineeringFactorsAffectingCPUPerformanceFactorsAffectingCPUPerformanceCPUtime=Seconds=InstructionsxCyclesxSecondsProgramProgramInstructionCycleCPIIPCClock Cycle CInstruction Count IProgramCompilerOrganization(Micro-Architecture)TechnologyInstruction SetArchitecture (ISA)X X X X X X X X X 高级体系结构课件155Advanced Computer ArchitectureThe School of Information Science and EngineeringMetricsofComputerPerformanceMetricsofComputerPerformanceCompilerProgrammingLanguageApplicationDatapathControlTransistors Wires PinsISAFunctionUnitsCyclespersecond(clockrate).Megabytespersecond.Executiontime:Targetworkload,SPEC95,SPEC2000,etc.Each metric has a purpose, and each can be misused.(millions)ofInstructionspersecondMIPS(millions)of(F.P.)operationspersecondMFLOP/s高级体系结构课件156Advanced Computer ArchitectureThe School of Information Science and EngineeringSPEC:SystemPerformanceEvaluationCooperativeSPEC:SystemPerformanceEvaluationCooperativeThe most popular and industry-standard set of CPU benchmarks.SPECmarks, 1989:10programsyieldingasinglenumber(“SPECmarks”).SPEC92, 1992:SPECInt92(6integerprograms)andSPECfp92(14floatingpointprograms).SPEC95, 1995:SPECint95 (8 integer programs):go, m88ksim, gcc, compress, li, ijpeg, perl, vortexSPECfp95 (10 floating-point intensive programs):tomcatv, swim, su2cor, hydro2d, mgrid, applu, turb3d, apsi, fppp, wave5Performance relative to a Sun SuperSpark I (50 MHz) which is given a score of SPECint95 = SPECfp95 = 1SPEC CPU2000, 1999:CINT2000(11integerprograms).CFP2000(14floating-pointintensiveprograms)PerformancerelativetoaSunUltra5_10(300MHz)whichisgivenascoreofSPECint2000=SPECfp2000=100高级体系结构课件157Advanced Computer ArchitectureThe School of Information Science and EngineeringTop20SPECCPU2000Results(AsofMarch2002)# MHz Processor int peak int baseMHz Processor fp peak fp base 1 1300 POWER4 814 790 1300 POWER4 1169 1098 2 2200 Pentium 4 811 790 1000 Alpha 21264C 960 776 32200 Pentium 4 Xeon 810 7881050 UltraSPARC-III Cu 827 7014 1667 Athlon XP 724 697 2200 Pentium 4 Xeon 802 7795 1000 Alpha 21264C 679 621 2200 Pentium 4 801 7796 1400 Pentium III 664 648 833 Alpha 21264B 784 6437 1050 UltraSPARC-III Cu 610 537 800 Itanium 701 7018 1533 Athlon MP 609 587 833 Alpha 21264A 644 5719 750 PA-RISC 8700 604 568 1667 Athlon XP 642 59610 833 Alpha 21264B 571 497 750 PA-RISC 8700 581 52611 1400 Athlon 554 495 1533 Athlon MP 547 50412 833 Alpha 21264A 533 511 600 MIPS R14000 529 49913 600 MIPS R14000 500 483 675 SPARC64 GP 509 37114 675 SPARC64 GP 478 449 900 UltraSPARC-III 482 42715 900 UltraSPARC-III 467 438 1400 Athlon 458 42616 552 PA-RISC 8600 441 417 1400 Pentium III 456 43717 750POWER RS64-IV 439 409 500 PA-RISC 8600 440 39718 700 Pentium III Xeon 438 431 450 POWER3-II 433 42619 800 Itanium 365 358 500 Alpha 21264 422 38320 400 MIPS R12000 353 328 400 MIPS R12000 407 382Source: http:/www.aceshardware.com/SPECmine/top.jspTop 20 SPECfp2000Top 20 SPECint2000高级体系结构课件158Advanced Computer ArchitectureThe School of Information Science and EngineeringQuantitativePrinciplesofComputerDesignQuantitativePrinciplesofComputerDesignAmdahls Law: The performance gain from improving some portion of a computer is calculated by: Speedup = Performance for entire task using the enhancement Performance for the entire task without using the enhancementor Speedup = Execution time without the enhancement Execution time for entire task using the enhancement高级体系结构课件159Advanced Computer ArchitectureThe School of Information Science and EngineeringPerformanceEnhancementCalculations:PerformanceEnhancementCalculations:AmdahlsLawAmdahlsLawThe performance enhancement possible due to a given design improvement is limited by the amount that the improved feature is used Amdahls Law:PerformanceimprovementorspeedupduetoenhancementE: Execution Time without E Performance with E Speedup(E) = - = - Execution Time with E Performance without ESupposethatenhancementEacceleratesafractionFoftheexecutiontimebyafactorSandtheremainderofthetimeisunaffectedthen: Execution Time with E = (1-F) + F/S) X Execution Time without E Hence speedup is given by: Execution Time without E 1Speedup(E) = - = - (1 - F) + F/S) X Execution Time without E (1 - F) + F/S高级体系结构课件160Advanced Computer ArchitectureThe School of Information Science and EngineeringPictorialDepictionofAmdahlsLawPictorialDepictionofAmdahlsLaw Before:ExecutionTimewithoutenhancementE:Unaffected, fraction: (1- F)After:ExecutionTimewithenhancementE:EnhancementEacceleratesfractionFofexecutiontimebyafactorofSAffected fraction: FUnaffected, fraction: (1- F)F/SUnchanged Execution Time without enhancement E 1Speedup(E) = - = - Execution Time with enhancement E (1 - F) + F/S高级体系结构课件161Advanced Computer ArchitectureThe School of Information Science and EngineeringPerformanceEnhancementExamplePerformanceEnhancementExampleFor the RISC machine with the following instruction mix given earlier:OpFreqCycles CPI(i)%TimeALU50%1.523%Load20%51.045%Store10%3.314%Branch 20% 2 .4 18%If a CPU design enhancement improves the CPI of load instructions from 5 to 2, what is the resulting performance improvement from this enhancement:Fraction enhanced = F = 45% or .45Unaffected fraction = 100% - 45% = 55% or .55Factor of enhancement = 5/2 = 2.5Using Amdahls Law: 1 1Speedup(E) = - = - = 1.37 (1 - F) + F/S .55 + .45/2.5CPI = 2.2高级体系结构课件162Advanced Computer ArchitectureThe School of Information Science and EngineeringExtendingAmdahlsLawToMultipleEnhancementsExtendingAmdahlsLawToMultipleEnhancementsSuppose that enhancement Ei accelerates a fraction Fi of the execution time by a factor Si and the remainder of the time is unaffected then: Note:Allfractionsrefertooriginalexecutiontime.高级体系结构课件163Advanced Computer ArchitectureThe School of Information Science and EngineeringAmdahlsLawWithMultipleEnhancements:AmdahlsLawWithMultipleEnhancements:ExampleExampleThree CPU or system performance enhancements are proposed with the following speedups and percentage of the code execution time affected: Speedup1 = S1 = 10Percentage1 = F1 = 20% Speedup2 = S2 = 15 Percentage1 = F2 = 15% Speedup3 = S3 = 30Percentage1 = F3 = 10% While all three enhancements are in place in the new design, each enhancement affects a different portion of the code and only one enhancement can be used at a time.What is the resulting overall speedup?Speedup = 1 / (1 - .2 - .15 - .1) + .2/10 + .15/15 + .1/30) = 1 / .55 + .0333 = 1 / .5833 = 1.71高级体系结构课件164Advanced Computer ArchitectureThe School of Information Science and EngineeringPictorialDepictionofExample Before:ExecutionTimewithnoenhancements:1After:ExecutionTimewithenhancements:.55+.02+.01+.00333=.5833Speedup=1/.5833=1.71Note:Allfractionsrefertooriginalexecutiontime.Unaffected, fraction: .55UnchangedUnaffected, fraction: .55F1 = .2 F2 = .15 F3 = .1 S1 = 10S2 = 15S3 = 30/ 10/ 30/ 15高级体系结构课件165Advanced Computer ArchitectureThe School of Information Science and EngineeringEvolutionofInstructionSetsSingle Accumulator (EDSAC 1950)Accumulator + Index Registers(Manchester Mark I, IBM 700 series 1953)Separation of Programming Model from ImplementationHigh-level Language BasedConcept of a Family(B5000 1963)(IBM 360 1964)General Purpose Register MachinesComplex Instruction SetsLoad/Store ArchitectureRISC(Vax, Intel 432 1977-80)(CDC 6600, Cray 1 1963-76)(Mips,SPARC,HP-PA,IBM RS6000, . . .1987)高级体系结构课件166Advanced Computer ArchitectureThe School of Information Science and EngineeringATypicalRISC32-bit fixed format instruction (3 formats I,R,J)32 64-bit GPRs (R0 contains zero, DP take pair)32 64-bit FPRs,3-address, reg-reg arithmetic instructionSingle address mode for load/store: base + displacement no indirectionSimple branch conditions (based on register values)Delayed branch高级体系结构课件167Advanced Computer ArchitectureThe School of Information Science and EngineeringARISCISAExample:MIPSOp312601516202125rsrtimmediateOp3126025Op312601516202125rsrttarget rd safunctRegister-Register561011Register-ImmediateOp312601516202125 rs rt displacementBranchJump / Call高级体系结构课件