不间断电源
当前位置:首页 > 新闻动态 > 谷歌服务器用内置UPS 放弃集中式UPS电源

谷歌服务器用内置UPS 放弃集中式UPS电源

发布日期:2013-8-12

由于UPS处于交流供电环节的最重要一环,几乎机房所有的IT设备必须有UPS供电,每100度的服务器用电就有近10度电白白消耗在UPS环节。除此之外还有很多的应急水泵、空调风机、弱电系统等也常常采用UPS系统做掉电保护,大型数据中心的UPS装机总容量均已达到大容量或超大容量等级,提高运行时的能效势在必行。

集中UPS系统弊端

传统数据机房集中式UPS系统的工作模式多采用双变换在线工作模式,即通过“AC-DC整流和DC-AC逆变的双变换”给IT负载提供稳定的净化电源。但是在这一模式下,UPS的效率较低,通常满载下的最高工作效率仅92~95%(视UPS结构的不同),如果对于当前数据机房普遍采用的2N电源系统架构,其正常工作的最大负载率仅为40%左右,在这一负载率下,UPS的工作效率也相应降低,通常只有约80~90%左右;即便是采用N+1的冗余配置,因为集中式UPS的容量颗粒度很大,总体负载率也不高;最后集中式UPS多采用一次性建设到位,但实际负载增长较慢,使得UPS系统长期运行在很低的负载率下导致低效率运行,这些都导致了能源的极大浪费并降低了整个数据中心的PUE指标。
UPS电源
除了基础设施层级UPS环节的能耗很高以外,每个服务器等IT设备层级也都配备有服务器电源模块。通常每台服务器内配置有两个服务器电源,正常工作情况下两个服务器电源同时工作并均分负载,将UPS的交流220Vac输入整流成输出12V以及5V等电压给主板和硬盘等相关部件供电。主板上还有一级VRM电源再将12V输入进一步降压到1.3V等电压给CPU以及周边芯片供电,多级转换效率不高。我们还知道单个服务器电源的容量冗余较大,比如笔者见过有典型负荷为300W的服务器配了750W的电源,而正常工作时每个服务器电源只能分摊150W的负荷,因此负载率只有20%,同样服务器电源也有负载率低转换效率也很低的特点,此时服务器电源效率往往只有70%不到。综上,整个供电路径非常复杂以及多处冗余,造成真正用于计算的能源不足30%。
UPS电源

谷歌服务器内置UPS技术原理

目前大多数企业的的标准商用服务器系统都是从戴尔、惠普、IBM或Sun等IT设备厂商购买的,为了保障业务的可靠性,所以都使用了前面介绍过冗余复杂的集中式UPS架构以及服务器双电源保障,运行效率很低。对于全球最大的科技公司谷歌来说,百万级数量服务器的节能要求极其苛刻,与UPS相比,电池的成本更低,且电池比UPS更有效率。通常,大型UPS的最高效率为92%至95%,这意味着一部分电能被浪费掉,而电池的有效率为99.9%,因此谷歌在基础设施层级放弃了使用大型集中式UPS电源,改采用市电直供达到近99.9%的供电效率。而在IT设备层级,谷歌自己设计服务器系统,每个服务器的电源只配置了一个高效率的服务器电源,且电源容量接近实际负载需求,这样负载率高供电效率也很高。在每台服务器内配备了12V的备用电池作为分布式小UPS,当市电电源发生意外时,电池可以继续供电,保障业务的持续性。
UPS电源
在硬件层面的可用性与效率的选择上,谷歌再次选择了效率。相比于传统集中式UPS长达半个小时甚至一小时的备电保护时间,谷歌服务器内置的分布式电池只能保持在市电断电后的很短几分钟内继续供电,直到柴油发电机起来承担所有负载。battery-on-server(服务器上的电池)基本上不能扩展,但它确实提供了一个分布式的电池备份,消除了传统设计对中央UPS的需要。如果市电长时间停电主要还是依靠备用发电机来持续供电,这是google在数据中心效率峰会上特别指出的,“如果发电机在几分钟内无法启动,这说明你有更大的麻烦,因此最好有一个以上的断电保护策略。”谷歌采用业务软件层面的冗余来保障,比如数据的多重备份,以及spanner等调度系统等,因此整个系统的健壮性不是靠硬件冗余来实现的。

在服务器电源方面,谷歌一直在开发更高效率的服务器电源,以减少浪费电源。谷歌服务器的电源转换效率不是典型的65-85%,而是效率在92%甚至更高,如果愿意再花20美元,效率甚至可以到94%以上,且只有一个12V整流输出电压轨,可以兼容不同服务器主板的使用。
UPS电源
由于历史的原因,传统的服务器电源往往有四种不同的电源:+12 V,-12V,5V,3.3V等输出,导致系统很复杂,效率不高,可靠性也不够好,应用还不够灵活。因为每个主板在每个不同电压输出会有不同的功率需求,服务器制造商为了兼容多款服务器的需求,往往会超额为每个单独的电压供应富裕功率,以支持多个不同的项目,从而导致负载率低效率低。

下图就是个典型的传统服务器电源和谷歌服务器电源的内部结构对比,从这些图片可以看到采用单一输出的谷歌服务器电源比传统多输出的服务器电源复杂度大大减少,且删除了很多不需要的器件,还采用了成本更低的PCB板材以及插件元件等,效率更高,灵活性更好,成本还得到一定的降低,也更高简单可靠,还可以电源回收重复利用或者电子垃圾拆解。
UPS电源
下图是谷歌较早期服务器的典型照片,只有一个电源,电源风扇既做电源自身散热,还兼做服务器风道散热。其厚3.5英寸(2个机架U单位),两个处理器,两块硬盘,八个内存条,主板由技嘉制造。google采用来自英特尔和AMD的x86处理器,Google还在自己的网络设备中采用了这种电池设计。从这些我们可以看出谷歌追求极致,为了效率无所不用其极,这就是谷歌不使用UPS电源的原因所在。当然UPS在效率提升上面还有很长的路要走,在可用性的前提下,效率的提高将更好的为广大企业造福。总之谷歌愿意耗费较大的成本来为每个服务器模块安装电池,从而达到服务器的极度节能,这种工程也只有谷歌能够完成。
UPS电源

更多技术细节

前面我们花了较大边幅介绍了谷歌服务器内置UPS技术的原理,下面笔者再针对这一技术实现做详细分析,以供大家了解更多技术细节。

如前面介绍及下图谷歌数据中心供电架构图,谷歌数据中心没有采用传统的集中式UPS系统,而采用了分布式的服务器内置UPS电池方案,从电网直接取电再经变压器降压配电到208V给到每个服务器,直接由服务器电源转换成单一的直流输出给服务器主板供电。当市电停电的时候,则由服务器电源输出上直接并联的电池来继续给主板供电,直到备用的柴油发电机起来继续给服务器供电。其中标号为220的AC开关设备就是柴油发电机和电网投切的自动切换开关ATS,由于服务器是采用了市电直供技术,因此谷歌在市电的低压配电环节作了一定程度的防电网电压浪涌防雷等保护措施,防止电网侧的噪声对服务器等IT设备的干扰,同时也抑制IT设备的谐波等对电网和其他设备的串扰(谷歌要求服务器电源的功率因素达到0.95以上)。谷歌定制的服务器内置UPS也有很宽的输入电压特性,比如供电电压范围从85Vac到300Vac都可以可靠工作,从45Hz到100Hz的频率波动也能,这些特性保证了市电直供情况下电网电压波动和杂讯的影响不会轻易导致服务器内置UPS切换到电池工作模式。谷歌甚至还在定制的服务器内置UPS输出上增加电容的容量,确保有更长的输出保持时间。
UPS电源
服务器内置的标号为115的UPS还包含了AC/DC转换器、输出开关单元、电池、电池充电器、以及控制器等。谷歌服务器电源的单一输出电压约为13.65V,输出电压正常工作的时候比电池电压高1V左右,因此市电正常的时候电池电压低,处于浮充待命状态,服务器电源承担全部的负载。由于主板上有唯一的VRM电源输入口,将13.65V的输入电压转换成各子部件需要的电压轨,而我们知道VRM电源的输入电压范围较宽,因此13.65V的电压范围允许一定的波动,比如VRM从9V到15V都可以正常工作,这样就不再受限于传统服务器电源的12V或者5V输出需要正负5%以内的很窄电压偏差范围等,灵活性大大提高,甚至允许电池有较宽的电池放电电压范围以延长电池放电时间。

下图是该服务器内置UPS的工作原理图,当市电正常的时候,服务器电源输出约13V给主板供电,根据0.5欧姆的等效负载,估算其服务器的功耗约为13*13/0.5=338W。此时服务器电源不仅承担全部的服务器负载,还承担对电池进行充电的任务,使得电池始终处于充满状态,以便下一次停电时电池有足够的输出能力。如下图电池的等效内阻Rbatt约为100毫欧,而Rcharger为电池充电的限流电阻,避免过大的充电电流对电池的损伤,打个比方,电池放电的截止电压为9V估算,则充电电流不能超过(13-9)/20=200mA。限流电阻下面还有一个单向二极管用于防止电池被反向充电损坏等,同时考虑二极管压降0.7V左右,因此基本可以控制服务器电源的输出电压基本高于电池两端电压约0.7V到1V左右。当然电池充满后就基本处于浮充状态,不再消耗能量,只有很小的漏电流产生的泄漏功率,因此实现了服务器内置UPS的效率基本为99.99%的很高效率。
UPS电源
当市电停电发生,交流输入检测电路快速判断到停电发生,13V的服务器电源输出出现电压跌落,当母线输出Vups触发到了Voff的欠压阈值,马上开通电池放电Vdischarge的驱动,背靠背的两个MOSFET开关被导通,从而开关530闭合电池马上放电承担起全部负载,保证服务器主板持续供电。随着时间的推移,电池放电电压持续降低,在99%的情况下经过10多秒甚至稍微更长些的时候,柴油发电机能自动开启并正常投入使用,这个时候服务器内置UPS由柴发供电而重新恢复13V输出,承担起所有服务器负载,电池不再放电,重新被充电,保证有足够能量用于柴发退出时候的再次放电。
UPS电源
如果很不幸,在1%的情况下柴发没能正常工作,或者服务器电源内部故障,这些极端情况下电池会持续放电,直到两端电压放电到低于Vbatt_low的电池保护欠压点,此时电池放电Vdischarge驱动会关闭,电池不会继续放电以保护电池不会被放亏损坏。在这个过程发生前,谷歌服务器会自动将数据做保护后再关闭此服务器。

当柴发带载了一定时间,市电故障排除重新恢复供电时,柴发先行退出,此时服务器内置小UPS再次放电,但放电只会持续ATS投切的几秒时间,然后市电重新来承担起全部的负载,UPS电池再次退出,并重新被充满,直到下一次停电发生,如下面的整个状态逻辑图。
UPS电源
实际从谷歌服务器的视频内,我们可以看到在某些案例中采用了汤浅公司的3.2Ah的铅酸电池,根据该公司产品的手册,放电电流约为12V/0.5欧姆=24A,相当于7.5C的放电电流情况下,如果截至电压为10.5V估算,则电池放电时间还不到1分钟,因此谷歌服务器内置UPS的电池放电时间是很短的,如果可以有效得控制能确保柴发启动时间在半分钟以内,是可以保障业务的稳定持续运行的。
UPS电源
从谷歌实际内置UPS专利的控制逻辑中,我们还可以看到一些更为细节的设计,比如其UPS控制器内装了非易失性存储器,用于存储各个截止阈值电压等,以便根据电池特性等软件可设,比如电池类型、温度情况、充放电历史、内部阻抗情况等;UPS母线输出电压可设置,用于匹配电池的电压和压降;还有随机数生成和计时器单元,用于随机延迟错峰开启电池充电或者内置UPS开机,避免机房上电或者市电恢复等过程中几万台服务器瞬间带载导致的对机房配电系统的瞬时冲击。此外,如果检测到电池出现异常,电池还可以热插拔更换等。
UPS电源
总之,谷歌的服务器内置UPS方案是个数据中心节能应用的经典案例,摒弃了传统低效率的集中式UPS供电,而采用了市电直供的分布式小UPS供电,在大大提供系统供电效率情况下,通过基本可控的软硬件设置来实现业务的持续性,即便某个小UPS出现故障也影响面很小,某种意义上还减少了传统集中式UPS自身故障带来的大面积停电风险。除了服务器内置小UPS的设计,谷歌还从服务器电源、主板上VRM等供电路经上的各个单元严格控制能耗,在提升了能效的同时,还带来标准化并减少系统复杂度、精简部件品种数量、大批量低成本采购、标准化安装/维护/替换、减少库存和人工成本、甚至在标准化的服务器平台上快速部署和利旧回收等,减少线缆的使用,并拆解回收电子垃圾,减少环境污染等等方面都有充分考虑,非常值得国内同行学习。

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注