[大带宽]推动数据中心变革 解读OCP China Day上的软件技术更新

2022/1/11 10:18:00

北京时间6月25日,由浪潮和基金会联合举办的首届开放计算国日(OCPCyChina)在北京举行。OCP旨在构建当前的数据中心硬件,开发面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。目前,有20多名OCP核心成员。

Facebook、Linedin、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等五大前沿技术话题。

虽然OCP已经成为世界上最大的开放硬件社区,但不要认为这个硬件社区对数据中心和计算的贡献只在硬件层面。计算能力的提高需要硬件支持,更不用说软件优化了,这已经成为业界的共识。事实上,从OPenRMC和SONIC两个主题中也可以看出,OCP也非常关注服务器和数据中心的软件水平。

数据中心在全云化下的需求

首先,我们都知道云计算已经成为企业IT的重要组成部分。云计算的大规模应用也改变了企业的计算习惯,对计算架构产生了深远的影响。因此,在系统层面,云计算的到来进一步需要数据中心。

在我看来,企业对数据中心的需求主要集中在三个方面:

1.高性能低TCO:云计算和人工智能的发展对计算能力提出了更严格的要求。随着云需求和人工智能应用的进一步增加,企业自然需要数据中心交出更多的计算能力。企业对数据中心计算能力提高的要求必须基于相同的TCO或更好的TCO;

2.高可靠性和高安全性:随着云计算承载业务的不断增加,企业希望数据中心的停机概率尽可能低。即使系统停机,也应尽可能缩短离线时间,以确保业务的可持续性。与此同时,大数据和人工智能的发展使数据从存储数据转向生产数据。如何确保公共云环境中的数据隐私也越来越受到企业的关注;

3.操作和维护的简化和自动化:面对数千台服务器、当地云需求和远程边缘计算需求、系统硬件的快速配置、应用、远程更新、系统故障后如何实现远程定位和远程调试已成为企业关注的焦点。

OCP成员英特尔和浪潮在全面满足这些需求时做了哪些工作?

优化英特尔的运行管理机制和启动时间

在整个服务器系统中,有许多运行管理平台,如处理运行管理、电源运行管理、网络运行管理等。

以处理运行管理平台为例,SMM是一种特殊的处理器管理模式,其执行将导致处理器和执行线程挂断。随着处理核数量的增加,SMM的频繁进出进一步降低了系统性能。

英特尔的计划是引入PRM平台运行机制,将SMM模式下过去运行的系统运行服务转移到核心空间,避免堵塞其他业务流程,减少对系统性能的影响。同时,该方案采用与SMM运行服务相同的ACPI接口,以确保与操作系统无缝连接。

在服务器启动优化方面,一般来说,服务器系统的启动时间是几分钟或几十分钟,远远不能满足企业快速启动业务的需求。

在这方面,英特尔的解决方案是通过记录处理器、内存和其他拓扑结构来避免系统重启时不必要的初始操作,并利用处理器的多核能力加速启动过程中内存的自解,从而缩短系统的启动时间。

优化BMC和Redfish的浪潮

在监控服务器健康状况和外部管理服务方面,嵌入式管理单元BMC的重要性不言而喻。在世界主要服务器供应商之间,BMC是闭源的,每个单元都有很大的差异,导致数据中心设备的统一管理问题。

随着Openbmc的提出,浪潮也在不断优化开源软件项目,促进Openbmc的生态发展。具体来说,浪潮促进服务器的在线升级,通过Web推UI界面,借助软件包刷新维护Firmware,不占用服务器网络带宽,进一步提高管理安全性。

同时,在故障诊断方面,浪潮将基于Open固定软件的标准服务器上的故障诊断软件和CDD进行移植,使整个社区的其他软件能够识别并实现工作交换。

另一方面,IPMI是当前服务器管理的主要技术标准。其缺点是功能较少,对其他扩展功能缺乏统一的管理规范界面约束,仅适用于中小型数据中心管理。现代大型数据中心平均配备数千台甚至数万台服务器,需要管理方案提供更多的功能和相应的接口。

与IPMI不同,Redfis技术标准具有良好的可扩展性和丰富的功能,为不同供应商的不同类型的基础设施提供了标准化、易于集成的管理接口。除了服务器外,Redfish还逐渐扩展了对存储和网络的支持。这一浪潮也积极参与了下一代数据中心管理的建设。除了服务器外,Redfish还实现了行业中第一个PenBMC版本。

对此,浪潮高级技术总监郭洪昌表示:浪潮希望与业内厂商和客户分享这些方案,实现整个生态系统的成长。同时,更好地重用浪潮积累的资源、IP和概念,成为用户的成功案例或POC参考,实现正循环。