
AMD最新推土机处理器.doc
2页AMD 最新推土机处理器其实推土机FX系列处理器在10月份就已经全球正式发布,技术特性如下:推土机从根本上改变了 AMD处理器的底层架构设计,简单地说就是变为模块化AMD宣称推 土机相比K10可在每瓦特性能上提升30-100%,会成为“有史以来最高性能的单线程和多 线程计算核心”双核心一模块在着手设计下一代x86处理器核心的时候,AMD的工程师们认为必须实现核心功耗与面积的 优化,而且 PC 应用的发展也让工程师们必须寻找一条新的路子,能够在不同核心之间实现 峰值带宽的最大化,并通过共享模块来充分利用每一平方毫米的核心面积八核心推土机是AMD公司历史上制造的最大规模芯片,集成了大约20亿个晶体管,是六 核心Phenom II X6、四核心Sandy Bridge的两倍多,但通过功能单元的合理分配,以及32nm SOI新工艺的应用,核心面积被控制在仅仅为315平方毫米,比六核心、45nm工艺的PhenomII X6还要小9%,比四核心、32nm HKMG工艺的Sandy Bridge也只大了 46%推土机模块化架构(二)】浮点推土机中的浮点单元也经过了完全重新设计,可以在不同核心之间共享资源。
每个推土机模 块内都有共享的两个128位乘法累加单元(FMAC),可以每个核心执行128位指令,或者每个 模块执行 256 位指令推土机浮点单元还改进支持了大量新的指令集Phenom II X6仅有128位浮点,Intel Sandy Bridge 增加了 SSSE3/SSE4.1/SSE4.2、128/256 位 AVX、每周期两个 128 位 AVX、每周期 128 位AVX+SSE推土机不但将这些照单全收,还独家支持FMA4乘加指令、XOP扩展操作指令 (曾经的 SSE5)另外在每个时钟周期内,推土机运行双精度x87指令的速度为8FL0PSS,持平Sandy Bridge 且比Phenom II X6快一半,128位AVX指令的执行速度则是64FLOPS,前者达到了 Sandy Bridge 的两倍指令集的变化自然需要软件的支持才能发挥效力,尤其是FMA、XOP两大独家指令如果软 件还在使用老的浮点指令,推土机的特点显然就发挥不出来在操作系统和软件程序完善之 前,可以运行一下AMD提供的两个XOP、AVX补丁程序,再跑分就会有明显的不同其实,这两个小程序正是近日网上传闻的所谓“鸡血补丁”,而且有时候确实能“鸡血”一 下,比如让FX-8150 wPrime 32M运算时间从15秒钟缩短到10秒钟。
共享前端 前端(Front End )的任务是驱动处理管线、确保核心随时获取所需信息在推土机中,每个 前端配合一个模块,并负责为其中的两个核心分配线程AMD在这里也做了大刀阔斧的改 进,涉及不相关预测和拾取管线、预测定向指令预取器等等一个预测队列可以管理一级、 二级分支目标缓冲(存储目标地址)所需的直接、间接分支推土机模块可以在每个时钟周 期内解码最多四条指令,而K10 Phenom II只有三条换句话说,推土机从三发射变成了 四发射,就像 Intel Sandy Bridge预测管线会生成一个拾取地址队列拾取管线则在每个时钟周期内从指令缓存里拉取32 个 字节加入拾取队列,再送往解码器推土机和Sandy Bridge 一样使用了物理寄存器文件(PRF)这是一个单独的位置,用于保 持执行指令的寄存器结果这种设计可以消除不必要的数据移动和复制,只保留一个拷贝而 不用对数据进行广播缓存推土机的每个核心都有64KB —级数据缓存、64KB 一级指令缓存、32-entry全关联数据页 表缓存(DATA TLB)、完整乱序载入/保存单元,后者可以在每个时钟周期内载入两个128位 或载入一个 128 位指令。
每个模块配备2MB 16路关联二级缓存、124-entry二级页表缓存,可同时处理指令和数据 请求推土机支持最多23个二级缓存不命中,用于保持内存系统一致性最后,一颗推土机处理器的所有模块与核心共享8MB 64路关联三级缓存。












