本
文
摘
要
“东数西算”工程的启动,正加速重构现有算力中心格局。
围绕算力,产业界该如何适应新的潮水涌向?
2022年9月22日,中国智能计算产业联盟联合益企研究院正式发布了《东数西算下新型算力基础设施发展白皮书》(下称“白皮书”),这也是“东数西算”战略实施以来,首部算力设施白皮书。
左起:中国智能计算产业联盟秘书长安静、国家信息中心信息化和产业发展部主任单志广、中国科学院院士陈润生、中国工程院院士郑纬民、北京应用物理与计算数学研究所研究员袁国兴、中国科学院计算技术研究所研究员张云泉
“白皮书”总计有三章、27节、78页,其基于产业调查,归纳总结了“东数西算”背景下,算力新基建发展面临的十大挑战。
例如:如何保障多元算力供给;如何确保关键信息基础设施的安全性;算力设施如何实现绿色与低碳;如何解决单机柜功率和密度持续提升;如何实现算力跨区域、跨云调度等,对于这些挑战,“白皮书”均提出了崭新视角并汇总了行业主流解决方案。
下面,就摘录“白皮书”中行业关注最多的“算力调度”、“绿色降碳”等内容,希望能给圈内人士一些启迪与帮助。
数据中心的新挑战
“白皮书”介绍,以算力为代表的数字经济,已成为我国经济战略的重中之重。
据中国信通院测算,在算力中每投入1元,将带动3-4元经济产出;算力发展指数每提高1点,GDP增长约1293亿元,但算力需求目前呈现出多元的新趋势。
例如大数据、人工智能等应用不断涌现,催生了新算力需求。
而以GPU、FPGA芯片为代表的异构计算与通用计算架构的兼容性问题也更加突出,多样性算力的标准化度量与输出成为挑战。
对此挑战,行业内已有诸多实践,如5A级智算中心,就通过其分布式异构并行体系结构,搭载多类型芯片,满足包含数值模拟、AI 训练、推理在内的不同应用场景需求。
如今算力已无处不在,但算力如电力一样易得易用,还有很长一段路要走。
“白皮书”主编之一的张云泉就表示,算力若要像电力一样存在,关键需统一标准实现智能化,构建起“算力插座”,这需要软件栈的打通。
在算力服务的标准化实践中,包括曙光在内的诸多企业,正积极参与探索。如全国一体化算力服务平台,目前实现了与 10余家计算中心的极速互联与融合调度,并初步建设集算力、存储、数据等增值服务。
白皮书还指出,随着计算器件的性能提高,数据中心内部单机柜功耗快速增加,发热量随之大涨。这除了让制冷系统电耗增加外,如何提升散热效率也成为行业难题。在解决实践中,基于浸没相变液冷技术和高密度刀片系统,产业界已经将单机柜功率做到了160KW,未来高密度数据中心或将加速采用液冷。
节能降碳,数据中心走向“风液共存”
面对“碳中和”、“碳达峰”目标,“白皮书”也多次提到数据中心的节能与降碳挑战。
而PUE(能源利用率)目前来看,仍是评价数据中心节能性的首要指标,因为制冷产生的用电量目前仍占数据中心整体用电量的40%左右。
根据数据中心绿色能源技术联盟的数据显示,2021年度全国数据中心平均PUE为1.49,部分数据中心的PUE值甚至达到了2.0。而工信部《新型数据中心发展三年行动计划(2021—2023年)》明确提出,2023年底新建大型及以上数据中心PUE降到1.3以下;长三角等地区甚至给新建大型、超大型数据中心划了PUE不超过1.25的“红线”。
为满足低PUE值的要求,市面出现了两种主流方案:
一种是将数据中心迁移到常年低温的高纬度地区,利用自然冷源降低散热系统的耗电量;
一种是用液冷取代传统风冷,并衍生出了冷板液冷、浸没相变液冷等多种散热方案。
其中,如曙光浸没相变液冷技术,可让数据中心PUE最低降至1.04;风冷虽然散热效率偏低,但若自然散热环境优越,也可保证较低PUE值。
因此,坊间逐渐达成了一种隐性共识:在存放“热”数据为主,且PUE要求严格,自然散热环节不理想的东部沿海地区新建数据中心,将采用液冷散热技术。而在自然冷源充足的西部地区,可继续采用传统的风冷方案,未来“风液共存"或许是一种新常态。
曙光浸没式相变液冷技术(运行局部)如今液冷数据中心正展现出如风冷一样的高可靠性,采用曙光液冷技术建设的国内首个标准化液冷数据中心,已持续稳定运行近2700天。且相较于传统的风冷散热,采用曙光液冷技术建设的众多液冷数据中心年节电量已达2亿度,相当于减少2.45万吨标准煤燃烧或6.6万吨二氧化碳排放。
当我们循序渐进地解决“白皮书”提出的“十大挑战”时,距离绿色计算的终极目标,产业界将越来越近,算力产业的春天相信也将快速到来。