第3章微型机的中央处理器CPU讲义资料-

第三章微型机的中央处理器CPU,3.1 CPU概述 3.2 CPU的主要技术参数 3.3 微处理器中所采用的新技术 3.4 CPU的封装与接口类型 3.5 CPU的内核 3.6 典型CPU介绍,3.1 CPU概述,1971年1月，Intel公司的霍夫研制成功世界上第一块4位微处理器芯片Intel 4004，标志着第一代微处理器问世，微处理器和微机时代从此开始。 4004包含2300个晶体管，尺寸规格为3mm4mm，计算性能远远超过当年的ENIAC。,3.1 CPU概述,IBM PC 诞生创造PC历史 1980年7月， IBM微电脑技术总设计师埃斯特利奇（Don Estridge）领导“跳棋计划”的13人小组秘密来到佛罗里达州波克罗顿镇的IBM研究发展中心，开始开发后来被称为IBM PC的产品。一年后的8月12日，IBM公司在纽约宣布第一台IBM PC诞生，开创计算机历史新篇章。第一台IBM PC采用了主频为4.77MHz的Intel 8088，操作系统是Microsoft提供的MS-DOS。IBM将其命名为“个人电脑（Personal Computer）” 。,3.1 CPU概述,CPU（Central Processing Unit，中央处理器）发展出来三个分支，一个是DSP（Digital Signal Processing/Processor，数字信号处理），另外两个是MCU（Micro Control Unit，微控制器单元）和MPU（Micro Processor Unit，微处理器单元）。面向控制应用的，称为微控制器，MCU,又称单片微型计算机(SingleChipMicrocomputer)，简称“单片机”，是指随着大规模集成电路的出现及其发展，将计算机的CPU、RAM、ROM、定时数器和多种I/O接口集成在一片芯片上，形成芯片级的计算机，为不同的应用场合做不同组合控制。如8051、PIC、68HC12、AVR等众多的单片机。,第3章微型机的中央处理器CPU,目前4位MCU大部份应用在计算器、车用仪表、车用防盗装置、呼叫器、无线电话、CD播放器、LCD驱动控制器、LCD游戏机、儿童玩具、磅秤、充电器、胎压计、温湿度计、遥控器及傻瓜相机等； 8位MCU(MCS48系列)大部份应用在电表、马达控制器、电动玩具机、变频式冷气机、呼叫器、传真机、来电辨识器（CallerID）、电话录音机、CRT显示器、键盘及USB等； 16位MCU(MCS51)大部份应用在行动电话、数字相机及摄录放影机等； 32位MCU大部份应用在Modem、GPS、PDA、HPC、STB、Hub、Bridge、Router、工作站、ISDN电话、激光打印机与彩色传真机； 64位MCU大部份应用在高阶工作站、多媒体互动系统、高级电视游乐器（如SEGA的Dreamcast及Nintendo的GameBoy）及高级终端机等。,MPU面向通用数据处理，不带外围器件（例如存储器阵列），是高度集成的通用结构的处理器，是去除了集成外设的MCU。 DSP面向数字信号处理；如TI的TMS320系列还有ADI、Freescale、NEC的DSP。 DSP运算能力强，擅长很多的重复数据运算，而MCU则适合不同信息源的多种数据的处理诊断和运算，侧重于控制，速度并不如DSP。 MCU区别于DSP的最大特点在于它的通用性，反应在指令集和寻址模式中。DSP与MCU的结合是SOC(system on chip)，它终将取代这两种芯片。广义上，CPU还包括图形处理器GPU，以及以IP核出现在FPGA/CPLD中的CPU等。,第3章微型机的中央处理器CPU,第3章微型机的中央处理器CPU,3.2 CPU的主要技术指标,位、字节和字长时钟频率主频、外频和倍频、超频运行 L1和L2 Cache的容量和速率扩展指令集工作电压总线宽度地址总线宽度、数据总线宽度制造工艺,3.2.1 位、字节和字长,位：二进制位，“0”或“1”。字节：8位二进制位字：两个字节字长：CPU一次处理的二进制数的位数，常见的有1、4、8、16、32、64位。,3.2.2 时钟频率,时钟频率：周期性脉冲信号的频率，单位Hz。主频：工作频率，CPU内核的实际运行频率。外频：前端总线频率或系统总线时钟频率，由主板提供的时钟频率，是内存等的工作频率。倍频系数：主频=外频倍频系数（486DX2）,超频运行：使CPU工作在高于额定工作频率,3.2.3 L1和L2 Cache的容量和速率,缓存是指可以进行高速数据交换的存储器，它先于内存与CPU交换数据，因此速度很快。 L1Cache(一级缓存)是CPU第一层高速缓存。在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。一般L1缓存的容量通常在32256KB。 L2Cache(二级缓存)是CPU的第二层高速缓存，分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同，而外部的二级缓存则只有主频的一半。用CPU容量一般是512KB MB 。,3.2.3 L1和L2 Cache的容量和速率,L1和L2 Cache的容量和工作速率对提高微机速度起关键作用 L2 Cache对提高运行图形处理较多的软件速度有显著作用,3.2.5 工作电压,CPU正常工作所需的外加电压，电压越低功耗越小、运行速度越高。早期（286486时代）一般为5V，CPU的发热量大，寿命短。近年来CPU的工作电压有逐步下降的趋势一般CPU工作电压低于3V，有的已低于2V。笔记本专用CPU工作的电压更低，1.2V。,3.2.6 地址总线宽度、数据总线宽度,地址总线宽度地址总线宽度决定了CPU可以访问的物理地址空间，简单地说就是CPU到底能够使用多大容量的内存。对于32位地址线的宽度为，最多可以直接访问4096 MB（4GB）的物理空间。数据总线宽度数据总线负责整个系统的数据流量的大小，而数据总线宽度则决定了CPU与二级高速缓存、内存以及输入/输出设备之间一次数据传输的信息量。,3.2.6 地址总线和数据总线宽度,地址总线宽度可访问的物理地址空间如：32根地址线的寻址能力为4GB（232B）数据总线宽度与二级高速缓存、内存和I/O设备间一次数据传输的位数,28=256 210=1K 216=65536=64K 220=1M 230=1G 232=22230=4G,3.2.7 制造工艺,线宽芯片上最基本功能单元（门电路）的宽度，也是连线的宽度，目前采用铜连线。第一代奔腾 CPU为0.35微米，266Mhz PII和赛扬为0.25微米，450Mhz 铜矿核心的奔腾为0.18微米，1.13Ghz Northwood核心的奔腾4 CPU为0.13微米 Prescott核心的奔腾4 CPU为0.09微米 sandy bridge CPU为32纳米,3.3 提高CPU性能的先进技术,流水线与超标量结构高速缓存扩展指令集 64位技术超线程技术多核心技术,3.3 提高CPU性能的先进技术,3.3.1 流水线与超标量结构指令的执行过程：取指令IF：从内存读取这条指令。译码ID：将指令翻译成操作命令。取操作数MEM：从内存中读取执行该条指令所需的操作数。执行指令EX：CPU个部件实际执行这条指令。回写WB：将执行的结果送回内存或寄存器中。,取指令IF,一条指令必须在前一条指令的五个步骤执行完后才能执行下一条指令。,流水线（pipeline）,又称管线，在486中首次使用在CPU中由56个不同功能的电路单元组成一条指令处理流水线，然后将一条X86指令分成56步后再由这些电路单元分别执行。这样就能实现在一个CPU时钟周期完成一条指令，因此提高CPU的运算速度目前，CPU的流水线已长达几十级,流水线指令的执行过程,WB,流水线（pipeline）,流水线的问题相关后面的指令需用前面指令的运行结果解决的方法：乱序执行在两条相关指令中插入不相关的指令转移条件转移解决的方法：分支预测，在没有得到结果之前预测下一条需执行的指令，目前能达到90%以上的正确率。,超标量技术（superscalar）,Pentium是Intel家族中最早采用超标量结构的处理器超标量（superscalar）是指在CPU中有一条以上的流水线，并且每时钟周期内可以完成一条以上的指令，这种设计就叫超标量技术。采用超标量技术的CPU集成了多个ALU、多个FPU、多个译码器，以并行处理的方式来提高性能,超标量技术（superscalar）,3.3.2 高速缓存（Cache）技术,CPU的运算速度与主存的读写速度不匹配在CPU与主存间加入容量较小、与CPU速度相当的SRAM（静态存储器） Cache储存了主内存的映象，通过访问Cache 来完成数据的读写。 Cache全部技术由硬件实现，对应用程序和系统程序员均透明。,1.Cache的实现原理,对大量典型程序运行情况的分析结果表明，在一个较短的时间间隔内，由程序产生的地址往往集中在存储器逻辑地址空间的很小范围内。称为程序访问的局部性。 Cache的工作原理是基于程序访问的局部性。局部性规律包括两个方面时间局部性：如果一个存储项被访问，则可能该项会很快被再次访问。空间局部性：如果一个存储项被访问，则该项及其邻近的项也可能很快被访问。 Instruction Cache（指令缓存）和Data Cache（数据缓存）,Cache的工作原理,Cache的命中率,命中率：命中的访问次数和总访问次数之比命中时间：访存Cache的时间失效率：失效的访问次数和总访问次数之比失效时间：访问存储器的时间 Cache的容量大：命中率高、命中时间长当超过一定值后，命中率随容量的增加并不会有明显地增长小：命中率低；命中时间短。,Cache系统须解决的三个问题,1. 定位问题处理器按主存地址访问存储器通过主存Cache地址映象机构判定该地址的存储单元是否在Cache中如果在（命中），按Cache地址访问Cache。 2. 替换问题不命中时，要从主存储器调入数据到Cache 若Cache满，则按某种算法将Cache中的某一块替换出去，并修改有关的地址映象关系。,Cache系统须解决的三个问题,3. 数据一致性（ Cache与主存储器数据一致性） Cache内的数据经过运算后比主存储器的数据新何时将Cache 中得到的结果写到主存储器中,2.Cache的基本结构与地址映象方式,Cache通常由相联存储器实现访问相联存储器时，将地址和每一个标签进行比较，对标签相同的存储块进行访问。,Cache的地址映象与变换,缓存与RAM之间的数据是以块为基本单位的，读入的一串数据称为“block”（块），而每一个这样的块都会被装入缓存的被称为“槽”block frame”（框架），它是缓存的基本组织方式。RAM的组织方式和缓存的一样，缓存设计的关键是如何在缓存框架中安排数据。做到合理高效的将RAM中的块关联到框架中去。也就是地址映象方式。,Cache的组成,Cache的地址映象与变换,1. 完全相联法（全相联映象）,主存块可映象到任何Cache块当Cache块全部装满后才会出现块冲突命中率高、命中时间长,Cache的地址映象与变换,2. 直接映象法主存块映象到Cache中指定的块任何时候，主存中存储单元的数据只能调入到Cache中的一个位置，这是固定的，若这个位置已有数据，则产生冲突，原来的块将无条件地被替换出去。命中率低、命中时间短。,Cache的地址映象与变换,3. 组相联法（组相联映象）,将存储空间分成若干组组采用直接映象组内各块采用全相联映象,3.Cache与DRAM的存取策略,在CPU与主存之间增加了Cache之后，便存在数据在CPU和Cache及主存之间如何存取的问题。必须保证Cache与主存的数据是一样的（即数据存取的