您所在位置：网站首页 > 生活休闲 > 社会民生 > CPU的构架对性能的影响

CPU的构架对性能的影响.doc

13页

卖家[上传人]：博****1

文档编号：533876491

上传时间：2022-11-10

文档格式：DOC

文档大小：889KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15金贝

下载

/ 13 举报版权申诉马上下载

文本预览

下载提示

常见问题

CPU的构架对性能的影响一、定义 Architecture ，结构、架构，这个词用于 CPU 的时候是指 CPU “接受和处理信号的方式”，及其内部元件的组织方式二、CPU主要发展阶段第1阶段第1阶段（1971——1973年）是4位和8位低档微处理器时代，通常称为第1代，其典型产品是Intel4004和Intel8008微处理器和分别由它们组成的MCS-4和MCS-8微机基本特点是采用PMOS工艺，集成度低（4000个晶体管/片），系统结构和指令系统都比较简单，主要采用机器语言或简单的汇编语言，指令数目较少（20多条指令），基本指令周期为20~50μs，用于简单的控制场合4004 是英特尔第一款微处理器，为日后开发系统智能功能以及个人电脑奠定发展基础，其晶体管数目约为2300颗图一4004 图二 8085第2阶段第2阶段（1974——1977年）是8位中高档微处理器时代，通常称为第2代，其典型产品是Intel8080/8085、Motorola公司、Zilog公司的Z80等它们的特点是采用NMOS工艺，集成度提高约4倍，运算速度提高约10~15倍（基本指令执行时间1~2μs）。

指令系统比较完善，具有典型的计算机体系结构和中断、DMA等控制功能Intel 8080晶体管数目约为6千颗第3阶段第3阶段（1978——1984年）是16位微处理器时代，通常称为第3代，其典型产品是Intel公司的8086/8088，Motorola公司的M68000，Zilog公司的Z8000等微处理器其特点是采用HMOS工艺，集成度（20000~70000晶体管/片）和运算速度（基本指令执行时间是0.5μs）都比第2代提高了一个数量级指令系统更加丰富、完善，采用多级中断、多种寻址方式、段式存储机构、硬件乘除部件，并配置了软件系统80286（也被称为286）是英特尔首款能执行所有旧款处理器专属软件的处理器，这种软件相容性之后成为英特尔全系列微处理器的注册商标由于IBM公司在发展个人计算机时采用了技术开放的策略，使个人计算机风靡世界第4阶段第4阶段（1985——1992年）是32位微处理器时代，又称为第4代其典型产品是Intel公司的80386/80486，Motorola公司的M69030/68040等其特点是采用HMOS或CMOS工艺，集成度高达100万个晶体管/片，具有32位地址线和32位数据总线。

每秒钟可完成600万条指令（Million Instructions Per Second，MIPS）微型计算机的功能已经达到甚至超过超级小型计算机，完全可以胜任多任务、多用户的作业1989年，我们大家耳熟能详的80486芯片由英特尔推出这款芯片的伟大之处在于它首次实破了100万个晶体管的界限，集成了120万个晶体管，使用1微米的制造工艺80486的时钟频率从25MHz逐步提高到33MHz、40MHz、50MHz 图三 80486第5阶段第5阶段（1993-2005年）是奔腾（pentium）系列微处理器时代，通常称为第5代典型产品是Intel公司的奔腾系列芯片及与之兼容的AMD的K6、K7系列微处理器芯片内部采用了超标量指令流水线结构，并具有相互独立的指令和数据高速缓存随着MMX（Multi Media eXtended）微处理器的出现，使微机的发展在网络化、多媒体化和智能化等方面跨上了更高的台阶第6阶段第6阶段（2005年至今）是酷睿（core）系列微处理器时代，通常称为第6代酷睿”是一款领先节能的新型微架构，设计的出发点是提供卓然出众的性能和能效，提高每瓦特性能，也就是所谓的能效比。

Core i3可看作是Core i5的进一步精简版（或阉割版），将有32nm工艺版本（研发代号为Clarkdale，基于Westmere架构）这种版本Core i3最大的特点是整合GPU（图形处理器），也就是说Core i3将由CPU+GPU两个核心封装而成由于整合的GPU性能有限，用户想获得更好的3D性能，可以外加显卡三、各阶段架构变化及影响架构不仅包括指令集的更新，更主要的是核心制成的改进，内存/缓存访问机制的改善，各个核心间数据交换的优化，总线带宽的提升等等,简单点来说就是架构越先进，相同频率下的CPU处理效率也就越高 1、指令集：CISC→RISC CISC就是复杂指令集计算机，是通过设置一些功能复杂的指令，把一些原来由软件实现的、常用的功能改用硬件的指令系统实现，以此来提高计算机的执行速度顺序执行的优点是控制简单，但计算机各部分的利用率不高，执行速度慢CISC架构主要以IA-32架构为主精简指令系统计算机．即Reduced Instruction Set Computer，简称RISC思想是尽量简化计算机指令功能，只保留那些功能简单、能在一个节拍内执行完成的指令，而把较复杂的功能用一段子程序来实现，通过简化计算机指令功能，使指令的平均执行周期减少，从而提高计算机的工作主频，同时大量使用通用寄存器来提高子程序执行的速度。

在中高档服务器中采用RISC指令背景：奔腾Ⅱ处理器融合了Intel MMX技术1) 单指令、多数据(SIMD)技术今天的媒体和通信应用程序中经常使用重复循环,这些仅占总程序10%甚至更少的代码,却要占用90%的运行时间一个被称作单指令、多数据(SIMD)的流程使得一条指令能完成多重数据的的工作这就好比一个长官对整个排发出"立正!"的命令,而不是对每个士兵都说一遍SIMD允许芯片减少在视频、声音、图像和动画中计算密集的循环2) 新的指令集Intel的工程师们特别设计了57条功能强大的指令,以更有效地操作、处理视频、声音和图像数据这些指令主要针对多媒体操作中经常出现的高并行、重复运算奔腾Ⅱ处理器的MMX技术和奔腾处理器中的MMX技术是兼容的,它和奔腾Ⅱ处理器的核心架构也有非常好的结合强大的MMX技术指令集充分利用了动态执行的技术,在多媒体和通信中性能表现卓著从Pentium III开始，英特尔又引入了70条新指令（SIMD，SSE），主要用于因特网流媒体扩展（提升网络演示多媒体流、图像的性能）、3D、流式音频、视频和语音识别功能的提升2、数据总线带宽：趋势不断增加宽度当CPU要数据时内存却传不过来足够的数据，造成CPU 闲置，所以总线需要足够的宽度。

CPU位宽：位宽越大代表一次能处理的数据越多，运算速度越快如果我们将总长128 位的指令分别按照16位、32位、64位为单位进行编辑的话：旧的16位CPU （如Intel 80286 CPU）需要8个指令，32位的CPU需要4个指令，而64位 CPU则只要两个指令显然，在工作频率相同的情况下，64位CPU的处理速度比16位、32位的更快. 地址总线宽度：越宽代表寻址范围越大当然64位寻址空间也有一定的缺点：内存地址值随着位数的增加而变为原来的两倍，这样内存地址将在缓存中占用更多的空间，其他有用的数据就无法载入缓存，从而引起了整体性能一定程度的下降背景： Intel C8008为世界上第一款八位元处理器8位运算+16位地址总线+16位数据总线，包含7个8位寄存器(A,B,C,D,E,F,G,其中BC,DE,HL组合可组成16位数据寄存器)，支持16位内存。

有效解决了外部设备在内存寻址能力不足的问题 1978年，Intel首次生产出16位的微处理器，并命名为i8086，8086内部数据总线（CPU内部传输数据的总线）、外部数据总线（CPU外部传输数据的总线）均为16位，地址总线为20位 1985年Intel推出了80386芯片，它是80x86系列中的第一种32位微处理器80386的内部和外部数据总线都是32位，地址总线也是32位，可寻址高达4GB内存3、主频：不断提高，主频和实际的运算速度存在一定的关系 CPU的主频表示在CPU内数字脉冲信号震荡的速度，与CPU实际的运算能力并没有直接关系由于主频并不直接代表运算速度，所以在一定情况下，很可能会出现主频较高的CPU实际运算速度较低的现象主频和实际的运算速度存在一定的关系，但还没有一个确定的公式能够定量两者的数值关系，因为CPU的运算速度还要看CPU的流水线的各方面的性能指标（缓存、指令集，CPU的位数等等）在一个时钟周期内，运算一条指令，主频高的CPU运算快随着技术的发展，CPU速度越来越快，内存、硬盘等配件逐渐跟不上CPU的速度了，而倍频的出现解决了这个问题，它可使内存等部件仍然工作在相对较低的系统总线频率下，而CPU的主频可以通过倍频来无限提升（理论上）。

但一味追求主频，不顾功耗也是不行的背景：奔腾4能够在同样的0.18微米工艺下轻松达到2GHz，随着主频的不断攀升，NetBurst架构的弊端越来越明显第三代Prescott奔腾4流水线达到31级，晶体管达到了125百万个（Northwood只有55百万个），以至于它每个时钟周期比Northwood多产生大约60%的热量，同时功率消耗也增加大约10%！3.2GHz的Prescott TDP达到了触目惊心的103W！英特尔意识到处理器研发道路上走入了“唯主频论”的误区，2004年10月，英特尔总裁贝瑞特惊天一跪，面对着6500人说道：“请原谅我们”，真心地对公司的失误表示忏悔4、缓存：增大有利于提高性能，但是从CPU芯片面积和成本的因素来考虑，缓存都很小 CPU内缓存的运行频率极高，一般是和处理器同频运作，工作效率远远大于系统内存和硬盘实际工作时，CPU往往需要重复读取同样的数据块，而缓存容量的增大，可以大幅度提升CPU内部读取数据的命中率，而不用再到内存或者硬盘上寻找，以此提高系统性能背景：Pentium Pro采用了“PPGA” 封装技术即一个256KB的二级缓存芯片与Pentium Pro芯片封装在一起，两个芯片之间用高频宽的内部总线互连，处理器与高速缓存的连接线路也被安置在该封装中，这样就使高速缓存能更容易地运行在更高的频率上。

吸取了奔腾Pro的教训，Intel在1996年底推出了奔腾系列的改进版本，奔腾MMX（中文名称“多能奔腾”）将CPU芯片内的L1缓存由原来的 16KB增加到32KB（16K指命+16K数据），因此MMX CPU比普通CPU在运行含有MMX指令的程序时，处理多媒体的能力上提高了60％左右 Conroe处理器沿用了L1 Cache设计，L1数据Cache和L1指令Cache分别为32KB，两个核心共享4MB或2MB的L2 Cache高级智能高速缓存（Intel Advanced Smart Cache）以往的多核心处理器，其每个核心的L2缓存是各自独立的，这就造成了L2缓存不能够被充分利用，并且两个核心之间的数据交换路线也更为冗长，影响了处理器工作效率如果采用L2缓存共享设计，那么只需要数据被载入。

点击阅读更多内容