Intel-多核微处理器技术-

Intel多核微处理器技术多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。英特尔工程师们开发了多核芯片，使之满足“横向扩展”（而非“纵向扩充”）方法，从而提高性能。该架构实现了“分治法”战略。通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片（也称为“硅核”），能够直接插入单一的处理器插槽中，但操作系统会利用所有相关的资源，将每个执行内核作为分立的逻辑处理器。通过在两个执行内核之间划分任务，多核处理器可在特定的时钟周期内执行更多任务。多核架构能够使软件更出色地运行，并创建一个促进未来的软件编写更趋完善的架构。英特尔对多核芯片信心十足, 预估，到2015年多核芯片将广泛应用于笔记本电脑、服务器、移动装置上，市占率分别为70%、85%、70%, 多核微处理器技术将成为主流根据摩尔定律, CPU 的速度应该每过18 个月翻一番。在过去的几十年中, CPU 的速度以一个令人意想不到的速度上升, 在这当中每年性能的提升可以达到58%之多。可是自从1996 年以后, CPU 速度上升的步伐似乎慢了下来。根据专家们的分析, 从1996 年到2002 年, CPU 的提升速度只有41%, 而从2002 年至今,更是下降到25%。有业内人士分析说, 这种下降的趋势还会继续下去。那么究竟是什么因素阻碍着CPU 的快速发展? 首先让我们看看影响CPU 性能的几个关键技术指标。影响CPU 性能的几个关键技术指标：1、主频。即CPU 的工作频率, 也就是CPU 每秒执行的指令数。主频越高, CPU 的速度越快。主频是衡量CPU性能的一个指标。2、前端总线速度。前端总线即Front Side Bus, 通常用FSB 表示, 是将CPU 连接到北桥芯片(一块电脑主板，以CPU插座为北的话，靠近CPU插座的一个起连接作用的芯片称为“北桥芯片”，英文名：North Bridge Chipset。北桥芯片就是主板上离CPU最近的芯片，这主要是考虑到北桥芯片与处理器之间的通信最密切，为了提高通信性能而缩短传输距离。)的总线。计算机的前端总线频率是由CPU 和北桥芯片共同决定的。北桥芯片是主板上最靠近CPU 的那块芯片, 它是负责联系内存、显卡等数据吞吐量最大的部件。前端总线是CPU 和外界交换数据的最主要通道, 因此前端总线的数据传输能力对计算机整体性能作用很大, 如果没有足够快的前端总线, CPU 的速度再快, 也只能干着急, 等着前端总线把所需数据传递过来后, 才能进行计算。3、流水线和超标量技术及分支预测机制。每一条指令的执行至多需要5 个周期, 分别为取指周期、译码周期、执行周期、访问存储器周期和写回周期。流水线就是在一个时钟周期启动一条指令, 从而实现一个时钟周期完成一条指令; 超标量就是在一个时钟周期启动多条指令。因而, 一个时钟周期可以完成多条指令。因此, 流水线和超标量技术通过指令间的并行, 来提高CPU 的运算速度。指令间的并行度越大, CPU 的速度越快。比如Intel Xeon 3.2 GHz (EM64T) 支持SSE3 流指令技术, 英特尔开发的第三代SIMD 指令集, 可以增强浮点和多媒体运算的速度。而正确的分支预测可以将需要执行的指令提前预取, 从而提高CPU 的速度。4、缓存的级数和各级缓存的大小。最初的计算机CPU 里, 并没有缓存。因为那时内存的速度和CPU 的速度基本相当, 内存能够满足CPU 的数据需要。可是后来CPU的速度按照摩尔定律提升, 而内存的速度却上升相对缓慢。为了解决内存速度缓慢引起的系统瓶颈, 缓存的概念应运而生。缓存保存CPU 经常使用的数据, 所以缓存越大, 保存的信息越多, 命中率越高, 就减少了CPU 访问内存的次数, 从而提高了整体性能。缓存可以做很多级, 目前已经做到三级。5、芯片架构。以前的CPU 都是单核心的, 现在双核心的CPU 已经问世。Intel 的Pentium 840 Extreme Edition芯片采用的是Smithfield,它是在一块硅芯片上集成两个处理器核心, 以后还会有多核心的CPU。从芯片架构这方面分析，衡量处理器效率通常有两个指标：一是芯片的能源利用效率，也就是每瓦性能，在消耗同等能源条件下，最终性能高的产品能源效率就较高；第二个指标便是芯片的晶体管效率，我们可以引入“每晶体管性能”来衡量，在消耗等量晶体管数量条件下，芯片效能高者效率就越高。晶体管规模越大，制造成本越高，对芯片厂商来说，提高每晶体管性能能够在保持成本不变的前提下获得更卓越的性能。一般来说，每瓦性能和每晶体管性能总是被结合起来讨论，不同指令体系的产品在此相差甚远，例如当前顶级的RISC处理器与顶级的X86处理器作对比，我们便会发现X86芯片远远落后。多核心设计可谓是提高每晶体管效能的最佳手段。在单核产品中，提高性能主要通过提高频率和增大缓存来实现，前者会导致芯片功耗的提升，后者则会让芯片晶体管规模激增，造成芯片成本大幅度上扬。尽管代价高昂，这两种措施也只能带来小幅度性能提升。而如果引入多核技术，便可以在较低频率、较小缓存的条件下达到大幅提高性能的目的。相比大缓存的单核产品，耗费同样数量晶体管的多核心处理器拥有更出色的效能，同样在每瓦性能方面，多核设计也有明显的优势。正因为如此，当IBM于2001年率先推出双核心产品之后，其他高端RISC处理器厂商也迅速跟进，双核心设计由此成为高端RISC处理器的标准。此时，RISC业界又朝向多核、多线程的方向发展，四核心、八核心设计纷纷登台亮相，并行线程数量多达32条，并且开始从通用多核体系转向简化核以及专用化的DSP，实现性能的跨越性提升这些新设计和新方向也都将被X86业界所借鉴。一、多核微处理器技术简介Intel表示未来采用多核心处理器，这种处理器对连接处理器和芯片组之间的总线带宽提出更高要求，现在的FSB总线带宽已经成为瓶颈，这也就是代号Demspey的双核心Xeon处理器将采用2个处理器总线连接处理器和芯片组（代号Blackford和Greencreek）的原因。目前并行FSB前端总线的最高承受速度在1.2GHz。未来首批双核心桌面处理器Smithfield的FSB在800MHz，65nm工艺的双核心Allendale和Millville的FSB也在1066MHz，还在目前并行FSB可以承受的速度范围之内。在2007-2008年内，Intel将推行DDR3 800/1066/1333内存，因此内存界面也将分2个阶段迈向串行方式，第1个阶段是为FB-DIMM搭配Advanced Memory Buffer（AMB，高阶内存缓存）芯片，将并行传输转换成串行。第2个阶段是装备真正的Serial DIMM串行内存。以双核心处理器为例，简单地说就是在一块CPU基板上集成两个处理器核心，并通过并行总线将各处理器核心连接起来。双核心并不是一个新概念，而只是CMP(Chip Multi Processors，单芯片多处理器)中最基本、最简单、最容易实现的一种类型。其实在RISC处理器领域，双核心甚至多核心都早已经实现。CMP最早是由美国斯坦福大学提出的，其思想是在一块芯片内实现SMP(Symmetrical Multi-Processing，对称多处理)架构，且并行执行不同的进程。早在上个世纪末，惠普和IBM就已经提出双核处理器的可行性设计。IBM 在2001年就推出了基于双核心的POWER4处理器，随后是Sun和惠普公司，都先后推出了基于双核架构的UltraSPARC以及PA-RISC芯片，但此时双核心处理器架构还都是在高端的RISC领域，直到前不久Intel和AMD相继推出自己的双核心处理器，双核心才真正走入了主流的X86领域。Intel不是惟一要推出双核处理器的厂商，目前几乎所有处理器厂商都有多核计划。IBM已经销售双核芯片多年，ARM也在手机市场销售双核芯片。惠普、Sun都已经拥有多核心产品。 Intel强调自身的特色在于生产双核乃至多核芯片不只是推出一个处理器的概念，它还包括利用平行处理与平台的整合，如更高的运算能力及支持其他如无线网络安全装置，整体提升使用者的操作经验。 Intel指出，多核处理器的应用领域包括可作为数码家庭的防火墙、资料备份、扫毒等功能，以及作为办公室的资料处理、科学运算。事实上，以上功能在目前的单核架构下就能完成就如下图所示，多核微处理器技术将成为一个发展趋势。二、 Intel与AMD多核处理器剖解1. AMD双核心构架简介AMD目前的桌面平台双核心处理器代号为Toledo和Manchester，基本上可以简单看作是把两个Athlon 64所采用的Venice核心整合在同一个处理器内部，每个核心都拥有独立的512KB或1MB二级缓存，两个核心共享Hyper Transport，从架构上来说相对于的Athlon 64架构并没有任何改变。与Intel的双核心处理器不同的是，由于AMD的Athlon 64处理器内部整和了内存控制器，而且在当初Athlon 64设计时就为双核心做了考虑，但是仍然需要仲裁器来保证其缓存数据的一致性。AMD在此采用了SRQ(System Request Queue，系统请求队列)技术，在工作的时候每一个核心都将其请求放在SRQ中，当获得资源之后请求将会被送往相应的执行核心，所以其缓存数据的一致性不需要通过北桥芯片，直接在处理器内部就可以完成。与Intel的双核心处理器相比，其优点是缓存数据延迟得以大大降低。AMD目前的桌面平台双核心处理器是Athlon 64 X2，其型号按照PR值分为3800+至4800+等几种，同样采用0.09微米制程，Socket 939接口，支持1GHz的Hyper Transport，当然也都支持双通道DDR内存技术2. Intel双核心构架剖析AMD曾经指出奔腾至尊版是两个核心共享一个二级缓存，这就是一个非常明显的错误。事实上，奔腾至尊版和奔腾D都是每个核心配有独享的一级和二级缓存，不同的是英特尔将双核争用前端总线的任务仲裁功能放在了芯片组的北桥芯片中。图1：基于Smithfield衍生出的奔腾至尊版和奔腾D，主要区别就在于奔腾至尊版支持超线程，而奔腾D屏蔽了超线程功能。按照“离得越近、走得越快”的集成电路设计原则，把这些功能组件集成在处理器中确实可以提高效率，减少延迟。不过，在台式机还不可能在短期内就支持4个内核和更多内核的现实情况下，只要有高带宽的前端系统总线，就算把这些任务仲裁组件外置，对于双核处理器的台式机来说带来的延迟和性能损失也是微乎其微的。英特尔945和955系列芯片组目前可提供800MHz（用于目前的奔腾D）和1066MHz（用于奔腾至尊版）前端总线，如果是供一个四核处理器使用，那肯定会造成资源争抢，但对于双核来说，这个带宽已经足够了。英特尔认为目前双核系统中的主要瓶颈还是内存、I/O总线和硬盘系统，提升这些模块的速度才能使整个系统的计算平台更加均衡。基于这种设计思路，英特尔在945和955系列芯片组中加强了对PCI-Express总线的支持，增加了对更高速DDR2内存的支持，对SATA(串行ATA)的支持速度增加了一倍由1.5Gb/s升级3Gb/s，进一步增加了磁盘阵列RAID 5 和 RAID 10的支持。图2：单核奔腾4处理器（左）和双核奔腾D处理器（右）微架构示意图此外，英特尔奔腾至尊版有一个独门“绝活”，那就是双核心加超线程的架构