大话芯片功耗

2019-9-18 10:21:00
  • 随着芯片上晶体管数量的不断增加,上层应用程序复杂度的提升,现今的半导体行业对芯片功耗的关注比以往任何时候都要多,尤其是在手机等移动端设备,如果产品动不动就没电了,那是一件十分令人头痛的事情。

另一方面,电池材料相关技术发展十分缓慢,导致目前的电池容量在相同密度下还是和电池体积呈正相关性,因此在做芯片设计的时候从顶层到底层都会采用低功耗(Low Power)技术。可能有些同学会问,那有些正常工作情况下直接和电源相连接的设备是不是不需要考虑功耗?

这个问题包含几个方面的考虑因素。首先地球上的石化能源是有限的,功耗高就意味着在相同的时间内需要消耗更多能源,其次对于高性能计算芯片来说,当功耗超过一定阈值(~150W),就需要使用昂贵的液态冷却或其他热量散发装置,所以出于节约能源,环境保护和帮助客户节约电费的角度来说低功耗设计依旧是必须考虑的因素。那么接下来我们就来简单了解一下芯片中功耗的主要来源以及相应的减少功耗的常用技术。值得注意的一点是尽管IC的前后端设计者通常会采用各种方法来减少功耗,但是应用层和架构层的设计才是最至关重要的,上层的应用和架构没有设计好,即使后端有再多的低功耗辅助技术也不能从根本上解决问题。就好比做一种美食,如果食材本身不新鲜,那无论多好的炊具也无法改善食物的口感。

1.功耗的主要来源

1.1 动态功耗(Dynamic Power)

动态功耗主要包含:

● 门电路开关过程中负载电容(Load capacitance)的充放电功(Switching Power)

● 来自于pMOS和nMOS都部分开启时的短路电流(Short-circuit Power)

以下图的CMOS反相器(Inverter)为例,当输入Vin从1变为0的过程中,nMOS关闭,pMOS开启并给负载电容CL充电,当输入Vin从0变为1的过程中,pMOS关闭,nMOS开启并使负载电容放电,电容充放电的过程中消耗的能量构成了Switching Power.

在充放电的过程中存在一小段窗口pMOS和nMOS都是处在部分开启的状态,因此会有电流直接从VDD流到GND,构成Short-circuitPower。

通过对上面的充放电行为进行物理分析,结合欧姆定律和电容充放电和能量相关公式,我们可以得到充放电功耗:

其中α是翻转系数(Switching Activity Factor),C是负载电容,VDD是工作电压,f是工作频率,这个几个参数对后面我们讨论降低功耗有着至关重要的意义。

1.2 静态功耗(Static Power)

静态功耗主要包含:

● 晶体管关闭状态的漏电功耗(Subthreshold Leakage)

● PN结反向偏置电流功耗(Reverse-Biased Junction Leakage)

● 栅极漏电流功耗(Gate Leakage)

其中Subthreshold Leakage占主导地位。在通用微处理器架构里,时钟网络(Clock Tree)和片上存储器通常会占用大部分的功耗。

2.低功耗技术

2.1 Clock Gating

Clock Gating即把不用的功能模块的时钟信号关闭,通过减少前面讲到过的Switching Activity Factor来降低功耗。具体实现方法如下:

通过与门和Latch(毛刺消除)组成的Clock Gating Cell,Register的Clock端口的时钟随使能信号开关,当时钟关闭时,由该Register所驱动的下游组合逻辑也相应降低了功耗。Clock Gating实现的重点在于找到合适的使能信号,目前的芯片设计Flow中只要符合以下三个条件后端的工具链就会自动生成ICG(Intergated Clock Gating) cell:

● Register Bank的使能信号不可以(简化)为常量0或1;

● 对于不包含Latch的Clock Gating,使能信号必须来自于与被Gate的Register时钟同步的Register;

● Register bank满足用户所指定的最小位宽要求;

关于Switching Activity Factor,还有一点值得一提的是电路中的Glitch,因为实际的Silicon中会有组合逻辑延迟(Propgation Delay),因此对于一个门电路来说,由于输入信号的到达时间会存在差异,所以实际的跳变会变得更加严重,从而增加Switching Activity Factor。因此有条件的话可以在做功耗分析时加入Glitch Power的预估。

2.2 电压域(Voltage DomAIn)和动态电压频率调节(Dynamic Voltage and_Frequency Scaling)2.2.1 Voltage Domain

在上面的公式中,工作电压VDD与动态功耗是平方的关系,所以电压的调整对功耗的影响也十分显著,但是根据alpha-power law,在其余条件不变的情况下,电压的降低会导致延迟的增加,即电路的性能降低。通常来说,整个芯片会根据具体的性能需求被分成几个不同的Voltage Domain,这种方案带来的挑战就是如何处理跨电压域(Voltage Domain Crossings)的信号,常用的解决方案是采用Level Shifter实现:

上图A来自于VDDL Domain,P1,P2,N1,N2均工作在VDDH,其中N1和N2分别接到A和~A,反相器也工作在VDDL,当A=0时,N1关,N2开,Y接地输出0,P1开,X接VDDH,保证P2关闭;当A=1时,N1开,N2关,X接地,P2开,Y接VDDH,P1关。从而达到A到Y不同电压域之间的逻辑转换。

2.2.2 DVFS

对于很多系统来说,处理不同数据和任务对于性能的需求是不一样的,比如我现在正在码文章的时候所消耗的计算资源和我看电影的时候所需要的计算资源是不一样的。利用这个特点,我们可以根据计算任务负荷来动态调整电压和频率至能满足需求的最低程度,这就是DVFS。

DVFS的具体实现方法多种多样,例如Linux里的OnDemand功耗策略,有兴趣的同学可以参考相关文献。

关于频率角度的低功耗,在设计中常采用多时钟域的方法,例如处理器的Bus通常比核心频率要低。由于存在多个时钟域,我们设计中需要考虑跨时钟域信号的同步问题,后续我们会有相关文章详细介绍,通常来说,工作频率为整数倍关系的时钟域之间被认为是同步的,处理相对比较简单。

DVFS实现存在比较大的一个缺点就是切换过程中的时间overhead较大(us级别)。

2.3 Power Gating

Power Gating是减少静态电流非常有效的方法,下图中当Power Gated Block正常工作时,Sleep信号为0,工作电压VDDV通过开启的PMOS接到VDD,当系统进入低功耗模式,Sleep信号变为1,VDDV被断开,整个Power Gated Block关电,这里需要注意此时该Block的输出端值为X,因此如果Output被下游Always On模块使用,为了保证不影响下有逻辑的正常工作,通常会在InteRFace上加入Isolation Cell,这一过程目前主要由后端的tool自动加入。

Power Gating带来的一个问题是系统状态的恢复,一般来说被Power Gated Block中的Register值在唤醒时要么处于Reset状态,要么已经被保存以便恢复,在设计中通常将重要的讯息保存到State Retention Register或者Memory里的方案。

Power Gating通常针对整个Block(Coarse-grainedpower gating)而非单独的逻辑门,因为Area和Performance的Overhead都比较大。

3. 低功耗架构

早期工艺下的芯片架构设计通常考虑如何最大化每一颗晶体管的性能,但如今随着工艺进入到7nm以下,芯片架构设计越来越关注性能功耗比。

3.1 并行化(Parallelism)和流水线(Pipelining)

并行化和流水线都能在维持相同性能的情况下降低功耗,下图中(a)是原始的设计电路。(b)采用了并行化做法,额外增加一组A和B逻辑,输出端每个时钟周期分别从两组逻辑取得结果,因此每个输入端是需要保证每两个周期提供一个有效结果,即频率变为原来的一半。(c)采用流水线做法,假设A和B被切分成delay相近的两级,那么逻辑的整体频率可以提升至2f,这样以数据吞吐量衡量的性能也就近似为两倍,在维持性能不变的情况下,我们完全可以降低工作电压。

3.2 总线编码(Bus Encoding)

通过给总线上的数据编码通常有助于减少总线上的功耗,常见的方式有

● 反向编码(Bus Invert Coding)

例如总线上需要传输0000->1110转换的数据,这里总线上会有3个bit跳变,但如果我们对第二个数据做取反操作,那么总线上就只有1个bit跳变,这样4个bit的总线最多只可能同时有两个bit跳变,具体实现还需要设计反向条件的算法。

● 异或编码(Transition Signaling)

这种方法仅针对特定的转换率很高的总线,发送端输出编码后bit值为前一个时钟传输bit值和当前时钟传输bit值的异或,接收端解码值为前一个时钟接受到的bit值和当前时钟接收到的bit值得异或,举个简单的例子,如果我们要传输的数据为10100110(跳变5次),那么实际总线上传输的数据为11000100(跳变3次)。

3.3 其他

在设计架构的时候,考虑到Memory的功耗密度(Power Density)通常低于Logic的功耗密度,并且Memory的Leakage控制比较规范化,如果同时有增加Logic或者Memory两种方案,通常增加Memory是对降低功耗比较有利的方案。

另外新型的异构计算架构(Heterogeneous Computing)在性能和功耗方面比单纯通用型处理器架构更加优秀,正所谓“专业的人做专业的事”,同样的AI算法在CPU上跑,不但性能不好,而且时间久功耗也大,因此在可预见的未来,异构计算将会成为趋势。