首页 > 范文大全 > 正文

关于CPU的一些性能介绍

开篇:润墨网以专业的文秘视角,为您筛选了一篇关于CPU的一些性能介绍范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:CPU(中央处理器)广泛应用于计算机工程领域。该文主要论述了CPU的性能,主要包括超长指令字处理器、超标量、处理器体系结构、优于最坏情况设计,分析了其发展方向。

关键词:微处理器;超长指令字;超标量

中图分类号:TP31 文献标识码:A 文章编号:1009-3044(2014)04-0847-03

1 概述

中央处理单元(CPU)是嵌入式系统的心脏,无论我们使用一个CPU或者用多个CPU组合来组成一个微处理器,指令集系统都能提供高效性和通用性,完成功能强大的嵌入式计算。下面主要从CPU的一些性能来进行说明。

2 CPU的并行执行机制

在这一节中,我们来看处理器进行并行操作的几种方法。这里将介绍超长指令字和超标量处理、子字并行、向量处理以及线程级并行。

2.1 超长指令字处理器

超长指令字(VLIW)体系结构起源于通用处理器,但在嵌入式系统中已经得到了广泛应用。VLIW体系结构提供了硬件开销相对较低的指令级并行。

图1展示了一个简化的VLIW处理器来介绍这项技术的基本原理。执行单元包括一个功能单元池,连接到一个大的寄存器堆。对于VLIW,我们可以说执行单元读入一个指令包—包中的每条指令可以控制机器中的一个功能单元。在一个理想的VLIW机器中,指令包中所有的指令同时被执行。在现代机器中,执行完包中所有的指令可能需要若干个周期。与超标量处理器不同,指令执行的顺序是由代码的结构和指令如何组成包决定的。在当前指令包中所有的指令执行完之前,下一指令包中的指令不会开始执行。

由于指令包的组织决定了指令执行的顺序,VLIW机器依靠强大的编译器来辨认并行性以及调度指令。编译器保证资源约束和相应的调度策略。作为补偿,执行单元就变得简单一些,因为不需要做资源依赖性检查。

2.2 超标量

超标量处理器在每个时钟周期发射多于1条的指令。与VLIW处理器不同,超标量处理器动态地进行资源冲突的检查,来确定每一步可以发出哪些指令组合。超标量体系结构在桌面系统和服务器领域具有主导地位。在嵌入式领域,超标量体系结构不及在桌面系统、服务器领域中常用。对嵌入式系统来说,评价的标准更可能是每瓦特能耗所完成的操作数,而不仅仅是性能。

尽管如此,还是有不少嵌入式处理器使用了超标量指令发射,虽然其超标量程度不及高端的服务器。嵌入式Pentium是一款按序双发射处理器,具有两条流水线:一条进行任意整数运算,另一条进行简单整数运算。

2.3 SIMD与向量处理器

许多应用展示出了数据级的并行性,使得应用本身具有高效的计算结构。另外,这些数据规模通常比较小。所以我们可以构建更多的并行处理器单元来获得更高的并行性。

一项关于小操作数宽度的技术叫做子字并行化(SIMD)。处理器中的ALU可以工作于正常模式,也可以分割为若干较小的ALU。一个ALU可以很容易通过将进位链断开进行分割,使位和位之间可以独立运算。每个子字可以对独立的数据进行操作;操作通过同样的操作码控制。由于同样的指令作用于若干数据,这项技术通常被认为是SIMD的一种。

另一种用于数据并行的技术是向量处理。向量处理已经在科学计算领域应用了几十年,使用特殊设计的指令在向量上高效地完成求点积之类的运算。向量处理并不要求小数据值,但是小的数据类型构成的向量可以在可用的硬件上并行完成更多的操作,特别是在使用子字并行方法管理数据路径资源的情况下。

2.4 线程级并行

处理器也可以开发线程级或者任务级的并行,线程级的并行更容易发现,特别是在嵌入式系统中。相比指令级的并行,线程的行为更容易预测。

多线程体系结构必须为每个线程提供独立的寄存器。但是由于线程之间的切换是程式化的,控制多线程的方法相对比较直接。硬件多线程技术交替从每个单独线程取指令。在每个周期,从一个线程取足够多的指令,从而能够在没有互锁的情况下让流水线充满。在下一个周期,就从另一个线程取指令。同时多线程(SMT)技术在每个周期都为多个线程取指令,而不是在线程之间交替。

3 性能可变处理器体系结构

因为许多嵌入式系统都需要符合实时性的时间限制,因此嵌入式系统里所使用的单个组件的一个可以预见的执行时间就成为它的重要评价指标。但是,传统的计算机体系结构设计更为关注系统的平均性能,而不是最坏情况的性能。从而导致处理器的平均性能往往很快,而最坏情况很难界定。这往往就会导致硬件设计(过大的高级缓存,过快的处理器)和软件设计(简化代码,限制某些指令的使用)趋于保守。随着能耗以及可靠性问题变得越来越重要,一些新技术不断地发展,而这种发展也使得处理器的行为变得及其复杂。尽管在嵌入式处理器中引入这些技巧会使系统设计变得更加难以分析,但这些技巧还是慢慢地渗入到了嵌入式处理器的设计。本节介绍两种重要的技术发展:电压和频率的动态调整以及“优于最坏情况”设计。

3.1 电压和频率的动态调整

电压和频率的动态调整(DVFS)是一种很流行的cpu能耗控制技术,它利用了CMOS数字电路可操作范围大的特点。CMOS不同于其他数字电路,它可以在一个很大的电压伏值范围内工作。除此之外,CMOS电路在低电压时具有更高的效率。

CMOS门电路的延迟基本是电源提供的电压的线性函数。通过门电路的能耗正比于两端操作电压的平方

CMOS的速率电压积(不计泄漏的部分)同样也是E∝C(V*V)。因此,通过降低电源提供的电压,我们可以使能耗以(V*V)的速率下降,而性能仅仅以V的速率下降。

图2给出了一种DVFS结构,时钟和电源由一组可以提供一定范围的值的电路来给出;这些电路主要是在离散点进行操作,而不是针对一组连续值的。时钟发生器和电压发生器都由一个控制器来控制,这个控制器决定了什麽时候时钟频率和电压将会发生变化以及变化多少。

结构

DVFS控制器必须在一定的限制下进行控制,以优化设计的标准。这些限制与时钟速率以及电压值有关:不仅仅是它们的最大值和最小值,这也包括时钟频率以及电压值以多大速率进行变化。这种设计的标准即可以通过给出一个能量的预计来最大化性能,也可以通过给出一个性能的限定来最小化性能。

我们可以通过硬件实现控制算法的编码,但通常至少会把一部分控制算法用软件来实现寄存器可以用来设置某几个参数的值。但更一般的处理方法是用软件实现整个控制算法。

3.2 “优于最坏情况”设计

数字系统通常设计为由时钟所控制的同步系统。设计者经过认真的分析来设计时钟周期,以使得每个值可以准确地存储到它应该存储的寄存器,并且往往通过增加时钟周期来涵盖最坏情况的延迟。实际上,在许多电路中,最坏情况的延迟相对少见,因此大多数情况下,电路逻辑就会有某段时间被白白置为闲置。

“优于最坏情况” 设计是一种替代设计方法,在这种方法中电路逻辑检测并恢复错误,它可以使电路在大部分时间里都可以以较高的速度运行。“优于最坏情况”设计结构的一个具体实现是Razor结构。

Razor使用了一个特殊的寄存器来对错误进行度量和评估,系统寄存器保存着阀值,并且采用高于最坏情况的时钟频率来计时。另外还有一个寄存器单独计时,它的时钟节拍比系统寄存器的时钟节拍稍晚几拍。如果这两个寄存器中所存储的值不同,这时就出现了一个错误。这个错误有可能是由于节拍控制出现问题造成的,通过一个异或门可以检测到这个错误,并用后出现的值来替换系统寄存器中的值

Razor微体系结构并没有使错误操作在同一阶段计算,而是在随后的步骤里再进行错误处理操作。这就避免了由于系统问题而导致的不确定次数的重计算而造成流水线的阻塞。

4 总结

CPU是嵌入式计算的核心。CPU可根据用途来选择,也可以根据手边的任务需要定制。各种系统结构技术可已用来优化CPU的性能、功耗和成本;这些技术还可以通过很多方式综合使用。还可以用很多分析和优化技术来定制处理器,以达到一定的性能要求。

参考文献:

[1] 蒋本珊.电子计算机组成原理(修订版)[M].北京:北京理工大学出版社,1999.

[2] 王爱英.计算机组成与结构[M].2版.北京:清华大学出版社,1995.

[3] 余永廉,钟文耀.电路学入门与进阶(下),第19章[M].全华图书公司出版,1995.