资源预览内容
第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
第9页 / 共43页
第10页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
并行计算 Parallel Computing集群技术Outlinen集群技术基础nLinux 集群实例:Cluster1350q体系结构qCSMOutlinen集群技术基础nLinux 集群实例:Cluster1350q体系结构qCSM集群技术n集群概念最早由IBM于20世纪60年代提 出n集群一般由高速网络连接起来的高性能 工作站或PC机组成。集群在工作中像一 个统一的整合资源,所有节点使用单一 界面。集群Not a Cluster Cluster专用集群非专用集群Shared Pool of Computing Resources: Processors, Memory, DisksInterconnectGuarantee at least one workstation to many individuals (when active)Deliver large % of collective resources to few individuals at any one time集群计算系统体系结构集群体系结构:结点n可以是多种高性能组件qPC机q工作站qSMPn这些节点可以是不同的体系结构,可以运行不 同的操作系统集群体系结构:处理器n支持多种(CISC/RISC/VLIW/Vector.)qIntel: PentiumsqSun: SPARC, ULTRASPARCqHP PAqIBM RS6000/PowerPCqSGI MPISq集群体系结构:操作系统n同样支持多种类型的操作系统qLinux(Beowulf)qMicrosoft NT(Illinois HPVM)qSun Solaris(Berkeley NOW)qIBM AIX(IBM SP2)qCluster Operating Systems (Solaris MC, MOSIX (academic project) )qOS gluing layers:(Berkeley Glunix)集群体系结构:高性能网络nEthernet (10Mbps,很少用), nFast Ethernet (100Mbps,比较少用), nGigabit Ethernet (1Gbps)nSCI (Dolphin - MPI- 12micro-sec latency)nMyrinetnDigital Memory ChannelnFDDI集群体系结构:通信组件nTraditional OS supported facilities (heavy weight due to protocol processing).qSockets (TCP/IP), Pipes, etc.nLight weight protocols (User Level)qActive Messages (Berkeley)qFast Messages (Illinois)qU-net (Cornell)qXTP (Virginia)nSystem can be built on top of the above protocols集群体系结构:集群中间件nResides Between OS and Applications and offers in infrastructure for supporting:qSingle System Image (SSI)qSystem Availability (SA)nSSI makes clusters appear as single machine (globalizes view of system resources). nSA - Check pointing and process migration.集群体系结构:编程环境nShared Memory BasedqDSMqOpenMP (enabled for clusters)nMessage Passing BasedqPVM qMPI (portable to SM based as well)集群体系结构:开发工具nCompilersqC/C+/Java/ ; qParallel programming with C+ (MIT Press book)nDebuggersnPerformance Analysis ToolsnVisualization ToolsLinux 集群上可用的任务调度系统nMosix(Multicomputer Operating System for UnIX )q可以自动完成节点间进程迁移q需要重新编译Linux内核q对用户来说是透明的nPBS(Portable Batch System)q由NASA的Ames研究中心开发 q为了达到集群系统整体上的负载平衡,对各个 节点上的任务进行调度,但不进行节点间任务迁移q不需要重新编译内核集群上的应用程序(计算)开发n适于开发基于消息传递的并行应用程序q可以使用PVM/MPIn步骤:q配置并行计算的编译与运行环境n主要是rsh/sshq设计、编写、编译程序n使用PVM/MPI提供的程序库及编译环境q部署应用程序nftp、rcp、scp、CSM、NFS、GPFS等方式q运行程序配置高可用集群n最大程度地减少服务中断,而不是容错。qHearbeatqLVS(Linux Virtual Sever)qIBM 的 Tivoli 和 WebSphere 系列软件qHeartbeat 集群LVS集群集群设计中需要考虑的问题g Size Scalability (physical & application)g Enhanced Availability (failure management)g Single System Image (look-and-feel of one system)g Fast Communication (networks & protocols)g Load Balancing (CPU, Net, Memory, Disk) g Security and Encryption (clusters of clusters)g Distributed Environment (Social issues)g Manageability (admin. And control)g Programmability (simple API if required)g Applicability (cluster-aware and non-aware app.)Outlinen集群技术基础nLinux 集群实例:Cluster1350q体系结构qCSMBeowulf 集群n标准的、商品化的、廉价的高性能处理器n高速网络技术n免费、开放的系统及并行软件nhttp:/www.beowulf.org/Cluster1350nCluster1350是IBM公司 目标定位于高性能计算 市场的Linux集群,包 括一套完整的解决方案 ,集成了众多IBM与非 IBM的先进的软硬件技 术,有其特有的技术优 势与强大的服务支持。http:/www-900.ibm.com/developerWorks/cn/linux/cluster/l-ibm1350/index.shtmlCluster1350逻辑结构Cluster1350节点硬件、网络和操作系统 (天津大学IBM中心)n管理节点 qIBM eServer xSeries 345 (1)n计算节点 qIBM eServer xSeries 335 (16)n网络q千兆以太网n操作系统qRed Hat Linux 7.3High Speed Network nCluster1350的计算网络可选Myrinet超高速网 络或者千兆以太网,以及相应的通信协议,用 于并行计算时各结点间数据交换。 Manage NodenCluster1350的管理节点为xSeries345 (2U), 操作系统为Linux,目前支持RedHat 7.2与7.3 ,RedHat AS2.1,以及SuSe 8.0和8.1, SuSe SLES7.2和8.0。自带两个 10M/100M/1000M自适应网卡,支持RAID, 有RSA适配器接口(PCI插槽)。xSeries345Compute NodenCluster1350的计算结点为xSeries335 (1U), 操作系统为Linux,目前支持RedHat 7.3, RedHat AS2.1,以及SuSe 8.0和8.1,SuSe SLES7.2和8.0。自带两个10M/100M/1000M 自适应网卡,有RSA适配器接口(PCI插槽)。xSeries335Terminal Server n各结点通过串口连接到Terminal Server,通过 Terminal Server,管理员在管理结点上可以获得任意 受控结点的控制台,而不管该结点在普通网络 (Management Network)上是否可达。一个 Cluster1350集群根据规模不同,可以有一个或多个 Terminal Server。在结点比较少时,也可以不用 Terminal Server,而用KVM交换机以及xSeries335前 面板上的控制按钮配合来实现控制台切换,不过后一 种方式当结点数目增多时连接及操作复杂度会越来越 高。 RSA (Remote Supervisor Adapter) nRSA适配器结点机主板上的ISMP以及C2T Chain等其它相关硬件配合工作,用于实现对 集群中各结点的电源管理、机器硬件状态监测 、日志报告等管理功能,是Cluster1350中硬 件控制的接入点。一个Cluster1350集群中可 以有多个RSA配置器,每一个RSA适配器最多 可控制24个结点。 Management Network nCluser1350的集群管理网络由各结点上的ISMP (Integrated Systems Management processor)、C2T Chain (Cable Chain Technology)、RSA适配器、 Terminal Server、Management Switch/VLAN构成。 其中ISMP内置于安结点主板,由C2T Chain级联,然 后通过RSA适配器用网线连接到管理网络;各结点用 串口线连接到Terminal Server,Terminal Server也通 过网线连接到管理网络。这样,管理结点通过管理网 络可以便捷地实现对集群所有结点的控制。 Management NetworkCluster NetworknCluster Network可以是普通的网络,主要用于 集群系统管理软件对集群的管理,比如监控结 点状态、网络安装各结点操作系统、更新各结 点配置文件及软件等。Cluster Network一般不 用于并行计算时各结点间数据交换。 Cluster System Management Layer nIBM公司为Cluster1350提供功能完备的基于SRC (System Resource Controller)和RSCT (IBM Reliable Scalable Cluster Technology)的CSM (Cluster System manager),GPFS (General Parallel File System)等集群管理软件,可以便捷地完成基本的集 群系统管理工作。还可以再选择安装其他用于Linux 集群的管理调度软件以实现负载平衡、任务调度等功 能。Application Layer n科学计算、商务服务、信息服务等各种需要大 规模计算或高可靠服务的应用都可以在 Cluster1350上运行。Cluster1350不是面向任 何特定的应用的设计,应用层根据用户的需要 而不同。C
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号