[大带宽]阿里巴巴液冷黑科技开源,IT创新又增新引擎

2022/5/26 10:21:00

我相信大多数进入数据中心机房的人都会对里面嗡嗡作响的设备留下深刻的印象。噪音是风冷数据中心的一个共同特征,因为风冷需要借助风扇驱动气流,气流会发出声音,无聊但无助。沉浸式液体冷却数据中心非常安静。除了安静之外,液体冷却实际上还有很多好处,如更高的能效和更可靠性,这代表了数据中心行业的最新发展趋势。

与风冷相比,液冷是一项革命性技术,刚刚开始应用,尤其是如何大规模部署和应用。阿里巴巴是第一个吃螃蟹的人。2018年,阿里巴巴在其张北数据中心部署了世界上第一个沉浸式液冷服务器集群,真正将该技术带入生产环境。经过一年多的运营,阿里巴巴总结并公开了这些经验。

1月6日,阿里巴巴宣布将向社会开放浸没式液体冷却数据中心的技术规范。该规范采用一套标准流程,为下一代绿色基础数据中心的建设提供设计依据,通过液体冷却技术的普及,降低了整个社会的能耗水平。如果国家数据中心采用液体冷却技术,每年可节省数千亿电力。 text-indent: 0;'>阿里巴巴_副本

不管风有多大,都不能吹凉芯

随着云计算、移动化和物联网技术的广泛普及,数据中心产业迎来了快速增长。在中国,数据中心市场的增长率超过30%,远高于世界(约10%)。数据中心产业的快速发展意味着电力消耗的不断增长。数据显示,数据中心产业的年用电量已超过三峡大坝的年发电总量。

与此同时,中国数据中心的低能效也日益突出。根据中国信息技术研究所的统计数据,中国超大数据中心的平均PUE值为1.63,大数据中心的平均PUE值为1.54。为了提高能效,国家和地方政府出台了许多鼓励建立绿色数据中心的政策,对PUE的要求越来越高。例如,北京和深圳都要求新数据中心的PUE值低于1.4,上海的PUE值低于1.3。

事实上,传统的风冷数据中心很难将数据中心的PUE值降低到1.5以下,没有其他技术手段(如自然风、水冷)也很难实现。液冷技术可以显著提高PUE值,浸没式液冷技术可以使PUE值达到1.1,甚至接近1,也就是说,很少有电耗。

另一方面,随着大数据和人工智能的大规模使用,对计算能力的需求大大提高。计算能力越大,能耗越大,制冷需求越高。例如,传统机架的功率密度一般不超过8KW。刀片服务器使机架容易超过10KW,而部署多个GPU卡的机架的功率密度可能高达20KW甚至30KW。如此高的功率密度超过了风冷技术的制冷能力(100W/每立方英寸)。面对这种高计算密度的应用,用液冷取代传统风冷是必然的选择。

阿里巴巴吃螃蟹

液体冷却技术一般可细分为冷板式和浸没式。相对而言,浸没式液体冷却技术可以解决高计算密度的散热问题,取消空调和风扇,无需考虑浪漫组织,土木工程更简单,机房噪声也可以解决,具有一定的优势,因此受到更多的关注。

为了提高阿里巴巴数据中心的能源利用效率,阿里巴巴很早就投入了液冷技术的研究,并于2016年推出了世界上第一台浸没式液冷服务器,并不断改进和改进。最后,该技术于2018年正式投入生产,在阿里巴巴张北数据中心建立了世界上第一个数千台机柜的浸没式液冷服务器集群。该集群支持阿里巴巴几乎所有主流业务,包括连续两年的双11,阿里巴巴云的一些业务也在这个液冷集群上运行。

经过一年多的运行,充分展示了浸没式液体冷却具有高能效、高密度、高可用性、高可靠性等优点。例如,阿里巴巴张北数据中心采用浸没式液体冷却技术制冷的机柜功率密度为30KW,如果需要提高到60KW或100KW,这根本不是问题。传统风冷室机柜功率密度超过10KW的情况较少。

由于液冷的热传导效率是传统风冷的100倍,可以突破传统风冷制冷能力的瓶颈,使单机柜的功率密度提高3倍。阿里巴巴基础设施事业部首席架构师IDC总经理高说。

更高效的制冷也带来了设备的低温运行,有助于提高设备的高可靠性。此外,取消风扇后,没有振动,进一步提高了设备的可靠性。浸没式液冷技术降低了设备故障率50%。此外,浸没式液冷机柜功率密度较高,意味着可容纳更多设备,空调较少。因此,与传统的风冷数据中心相比,浸没式液冷数据中心的空间也更经济。这些都为阿里巴巴降低运维成本,更好地支持业务提供了良好的基础。

现在云已经成为IT技术创新中心,浸没式液冷是数据中心支持云计算创新的引擎之一。高山渊评论说。

高山渊透露,阿里巴巴将在3-5年内继续改善液体冷却技术和工业生态,取代液体冷却能量和风冷,即在可以部署风冷的地区。最终目标是消除风冷技术,将液体冷却转化为默认配置。

对外开放,普惠社会

虽然液体冷却的优势是显而易见的,但真正应用的企业很少。即使是在数据中心领域投资巨大技术的互联网巨头也没有真正大规模应用这项技术。其背后的原因是浸没式液体冷却液取代空气换热。与风冷技术相比,这是一个革命性的变化,不仅仅是散热模式的变化,还涉及到数据中心的整体设计以及如何有效利用液体冷却,以及如何最大限度地释放技术红利。技术和工业生态都面临着许多挑战。

要真正大规模应用液冷技术,有很多问题需要解决。比如不导电的液体有很多种。哪种液体适合长期使用?IT设备能否长期稳定地在液体中工作?甚至如何操作和维护都需要我们的长期测试和研究。阿里巴巴基础设施部资深技术专家钟在接受采访时表示。

阿里巴巴为了实施这项技术做了很多工作。最大的挑战是这个领域几乎是空白的,没有标准可供参考。钟杨帆说。

由于没有标准,也没有生态,市场上没有IT设备可以沉浸在液体冷却环境中销售,包括服务器、网络设备、存储、光模块和电源,都需要阿里巴巴和供应商一起探索,经历了许多曲折。

希望别人不要踩我们踩过的坑。钟杨帆说。如今,这些经验都集中在向社会开源的浸没式液冷数据中心规范中,供参考和借鉴。本规范涵盖了浸没式液冷数据中心的设计、施工、部署、运行和维护,包括机柜接口标准、出线方式、电源标准、冷却液的安全性、稳定性和电气性能要求,甚至是用于运行和维护的移动吊臂。参照阿里巴巴的规范,通过综合设计和合理规划,可以有效降低部署成本,提高稳定性,使数据中心尽快走上高效、清洁、集约化的绿色发展道路。

对于阿里巴巴来说,这是为了向行业开放我们的家庭技能。希望大家共同构建生态,让企业更大规模部署,让全社会享受科技包容性的力量,共同推动绿色数据中心产业的发展,最终实现全社会的绿色发展。高山说。

他说,这是阿里巴巴的责任。阿里巴巴有条件、有资源、有责任成为IT创新的责任,与社会分享技术红利。