公司数据中心建设服务质量保证设计方案-

公司数据中心建设服务质量保证设计方案1.1 服务质量保证设计分类XXX公司本次网络的服务质量保证（QoS）设计主要包括两个方面：l 数据中心服务质量设计：由于采用Data Center Ethernet技术，因此主要是DCE以太网QoS设计；l 传统局域网广域网服务质量设计：这一部分业务类型复杂，包括业务数据、IP电话、视频会议等等，加上传统局域网和广域网技术都有自身机制和带宽资源的制约，因此是QoS设计的重点，这部分将主要是IP QoS设计。1.2 数据中心服务质量设计本次数据中心采用Data Center Ethernet（DCE）技术，DCE的设计目标之一就是为未来大型数据中心的业务提供传输保障。我们知道衡量QoS质量的四个要素是：带宽，延迟，延迟抖动和丢弃率。在资源整合后的面向服务的数据中心中，对带宽、延迟和丢弃率的要求是非常苛刻的，因此要达到新一代数据中心的设计目标，必须使DCE能够满足对带宽、延迟和抖动的服务质量要求。1.2.1 带宽及设备吞吐量设计保证在资源整合后的网络传输带宽和网络设备吞吐能力，必须实现以下DCE设计：1.2.1.1. 设备吞吐能力选择的设备必须能够提供足够的交换容量，Nexus 7000具备4Tbps的交换吞吐能力，每插槽230Gbps（可扩展500Gbps）；在接入层设备选择上采用接近1.2Tbps交换能力的Nexus 5000，并使用交换延展设备Nexus 2000将这一交换能力线性延展到每个服务器机柜。1.2.1.2. 带宽设计首先要在数据中心的拓扑设计中规划好带宽。在本次设计中接入层的每列机柜基本上保证每服务器接入网络的线速，这是依靠每台柜顶交换机（Nexus 2000）上连时的4个万兆链路捆绑后所提供的带宽保证，另外Nexus 5000的1.2Tbps交换能力也保证了所有万兆汇聚后的无瓶颈处理。数据中心当前最大规模的带宽占用还是在服务器之间的内存同步、并行计算、数据备份和融合SAN之后的存储访问，如果能够将未来支持FCoE的存储机柜设计在Nexus 5000接入，其它万兆网卡的高性能服务器直接在Nexus 5000所在机柜接入，并保证服务器机柜分配得当的条件下，以上大量资源耗费的处理都可以在接入层的同一对Nexus 5000内完成，因此基本可以保证带宽的线性处理。而接入层到数据中心汇聚层（Nexus 7000的VDC）的连接中是有一定过载，这些过载也只针对跨越两对Nexus 5000即两个列（也可称为POD）之间的流量，当前每对Nexus 5000到7000之间采用4个万兆，在万兆端口数量不紧张的情况下还可以扩容并保证跨机箱的vPC技术实现充分负载均衡的端口捆绑。而考虑到当前服务器数量远没有达到完全过载数量（充分过载是640台全线性1G的服务器接入），而且在适当安排服务器后两列之间的流量基本上非常少，大部分带宽消耗型应用将在列内完成，因此当前的过载比是完全满足当前和至少今后5年内的数据处理量要求的。数据中心服务机箱（Catalyst 6500）和数据中心汇聚（Nexus 7000 VDC）之间当前的设计带宽是每机箱双万兆上连（40Gbps全双工吞吐量），这个数值已经超过当前每个机箱内的单防火墙模块在引擎加速特性下的吞吐能力（32Gbps）和单ACE模块的最大处理性能（16Gbps），因此也没有连接瓶颈。在以后智能服务扩容时，互连的带宽还可以继续扩容，通过vPC和VSS技术保证跨机箱捆绑的充分负载均衡。从数据中心汇聚到全网核心（Nexus 7000的VDC之间）则可以通过灵活的万兆线路跳接方便的扩容互连带宽，根据整个股份公司对数据中心访问量的评估，当前的互连方式（全双工超过80Gbps）也是完全满足至少5年的业务发展需求的。1.2.1.3. DCE带宽管理：在以上的理论分析中，带宽设计已经完全满足本次设计的需要，但是我们可以看到即使最完美的设计也不可能保证网络中处处线性、没有过载，这是不必要也不经济的。在出现过载的位置，我们可以通过技术手段使得最需要带宽的服务能够保证优先获得资源，这也是服务质量保证设计的重点。在本次推荐的DCE网络技术中已经完全支持IEEE最新的带宽管理技术802.1Qaz ETS（Enhanced Transmission Selection），该技术可以保证在过载情况下优先保证如高性能计算网、存储网流量的带宽，而一般数据业务可以灵活、高效的使用剩余有效带宽，如下图所示11G对10G过载情况下的QoS优化带宽分配：1.2.2 低延迟设计DCE的资源汇聚使得存储业务和高性能计算业务都将在一个交换平台上传送，DCE的一个重要要求就是保证这些网络原来的低延迟、低抖动能力一样可以在以太网上获得，这主要依靠设备的低延迟转发特性和在拥塞情况下高级的队列调度来实现。在本期所推荐采用的Nexus系列交换机最大特点就是使用了Cisco在MDS系列存储交换机上实现的SAN网络低延迟技术和专利，使以太网交换机获得了极低的转发延迟，三层端口对端口的转发延迟可在1020us，而二层的端口见转发延迟可在3个us以下。充分保证远程存储读写、远程内存访问的流畅性。与带宽设计时一样，网络不可能在任何位置都通过充裕的资源，在适当的进行带宽分配和设计后，在许多关键的位置虽然存在过载，但仍不会带来资源的紧张。但仍可能出现突发和不可预测的资源分配不够的问题，这时就需要采用高级的队列管理和调度，对延迟不敏感的业务主动出让一些资源，以保证对延迟极为敏感的业务服务质量不受影响。在以太网上协调资源实现类似流量控制的很早就有，比如最常见的端口暂停帧机制（IEEE 802.3 Annex 31B），当有拥塞发生时通过互连端口信息的传递，让端口流量发送暂缓，以保证自己有足够的资源处理关键业务。而这种传统的控制方式将导致一个物理端口内的所有业务的暂停，导致不可预料的延迟。本次我们采用的DCE网络支持IEEE最新的Priority Flow Control (IEEE 802.1Qbb)技术，如下图所示，可以对多达8种不同业务给与完全不同的流量区别，从而保证迫切需要资源的存储、访存类业务流的低延迟优先性。8类业务可以常规QoS的802.1Q优先标识和IP Precedence优先标识进行统一定义。1.2.3 无丢弃设计资源缺乏会导致系统对业务进行丢弃，而存储业务、高性能计算业务等是对丢弃极为敏感的，由于业务机制对延迟和成功率的苛刻要求，即使少量的丢弃也会对业务效率产生极为严重的影响。DCE有“无丢弃以太网”的别称，就是在许多方面改善了传统以太网易于丢弃的简单流控行为。主要表现在以下方面：l Switch Fabric VoQ：这是SAN交换机的交换矩阵以及运营商核心设备所广泛采用的矩阵队列调度方式，现在该技术广泛使用在DCE的各级设备，有效的避免在设备交换处理时的头端堵塞现象，保证高优先级流量的无丢弃。l 硬件化的Credit 机制：这也是传统SAN交换机在硬件上保证的传输无丢弃技术，它通过收发双方能有一个互相沟通收发能力的计数器相互协商对方的发送和接收能力，以一种高效沟通的方式保证在底层传输上的无丢弃。现在该技术以在DCE的各级交换机上采用，保证收发以太网帧可以象过去收发存储FC帧一样做到无丢弃。l Per Virtual Lane (VL) Credit：上面的技术是物理端口级别的，在DCE中还将这种硬件Credit技术用在端口内的Virtual Lane级别，这意味着在同一收发双方的物理口内，可以实现不同业务采用不同Credit参数，实现不同的流控要求，比如传统数据不进行这种机制以节约资源，而FCoE帧则必须使用该机制，而它们都将在一对收发物理接口内共存。l BCN/QCN (IEEE 802.1Qau)：这是一种后向拥塞控制机制，它最大的特点是可以在网络中检测出拥塞，然后发信令到源头，来降低过载的流量，使拥塞得以缓解，并保证优先业务无丢包。该技术曾用于ATM等精细流量管理的网络中。如下图所示。1.3 非数据中心网络的服务质量设计为了保证XXX公司非数据中心网络部分的关键应用，将对应用按重要等级进行分类，在网络上，实现对不同等级的应用提供优先权不同的质量服务。实时多媒体应用如IP电话、视频会议等应用将给予绝对的保证，而对一些不十分紧要的应用，在网络带宽充足的情况下将予以保证，在网络带宽不足的情况下，将预先舍弃，以保证关键应用。XXX公司局域网和广域网需要具备提供数据、图像、语音、传真和各种多业务综合承载和接入能力。信息传递的服务质量保证和性能优化设计将是最为关键的一个环节，它直接影响到华能系统应用的稳定。实际上IP网的两个技术根源以太网和TCP/IP是众所周知的“无服务质量保证技术”，所谓无服务质量保证不是指服务的质量一定不好，而是在技术本质上只考虑数据的可达性、正确性，并没有机制去考虑数据递送中诸如延迟、延迟抖动等服务质量要素，因而又称之为“尽最大努力”（Best Effort）的传送方式。随着网络技术的不断发展，今天的华能网络已从单一的数据传输应用转向了综合的多媒体应用，如IP电话业务应用、视频应用等。这种转变引发对包括网络带宽、性能和灵活性在内的网络服务质量的大量需求，因而也产生了大量高新技术和产品。如何利用TCP/IP、以太网高效和通用性来传输要求较高服务质量保证的业务、如何在XXX公司各级网络中进行设计和部署性能优化特性就是这里将要重点说明的。实际上即使使用IP和以太网技术原本的Best Effort传送方式只要在资源充足的情况下用户也不会感到有服务质量的问题。因此只要网络资源充裕，语音、视频、传统应用等等各种用户都不会抱怨网络的传送，但是无限制的资源是不现实的，更多见的是突发和不可预测性造成的资源的局部紧张，在这样的网络中保证各种业务有它们最佳的服务质量才是性能优化设计的最终目标。在XXX公司网络上有3种实现服务质量保证的思路：（1）提供充裕的资源：这需要有高容量的吞吐能力、极低的转发延迟和充裕的带宽，在Best Effort环境里，即使不能提供无限丰富的资源，也需要网络尽可能的少的出现拥塞或至少不在关键部位（如骨干）出现拥塞，这需要精细的设计；（2）拥塞处理机制：万一发生了拥塞，采用何种技术处理，如Email延迟几秒钟到达没有用户会抱怨，而视频会议如果出现这样的问题就很严重了。因此如何使视频、语音、实时交互软件感觉不到拥塞则是需要在拥塞发生时处理的主要问题；（3）拥塞规避：等到拥塞发生再进行的处理，对于容量大、要求延迟低而且对延迟抖动要求极为苛刻的视频应用来说可能已经来不及了，换句话说对于大规模视频流应用而言仅仅依靠拥塞处理机制是不可能达到预期效果的，必须对这些特殊应用的流量施行“拥塞规避”措施，即采用某种机制保证它们不拥塞（即使网络资源不是极大丰富的前提下），而其他业务使用它们使用剩余的资源。以上解决手段不是孤立出现的，下面针对以上三个思路分别介绍在XXX公司各级网络实现IP QoS的方式。1.3.1 QoS实施方案我们通常按以下步骤来考虑QoS的实施：步骤1：分析业务需求步骤2：QoS策略的制订和部署步骤3：评测和调整1.3.2 分析业务需求首先我们需要了解XXX公司网络中存在哪些应用、其流量特征基线和未来发展情况，其次我们需要了解每种应用的服务质量特性和需求。根据我们对XXX公司业务的了解，我们认为XXX公司存在视频会议应用、语音业务应用和各类不同档级的数据业务。我们需要在实施前对网络所存在的这样业务现有情况进行流量基线调查，包括其细致的应用所占带宽比例，使用频度，未来的增长趋势等。这需要依靠协议分析设备（比如XXX公司已有的网络协议分析模块）、网络设备的Netflow/Netstream功能（这在前面建议的设备中都具有了），然后作出一个类似下图的分