作者:Sanjoy Maity,首席执行官
人工智能基础设施的建设是现代史上影响最为深远的工程项目之一。每年有数千亿美元涌入数据中心建设。耗电量相当于小型城市的GPU集群正以惊人的速度组装完成。而这一切的背后,管理着芯片、控制着散热和冷却系统,并在其他所有系统瘫痪时确保系统正常运行,正是固件。而我们行业中的大多数成员,历来都将控制层面视为无关紧要的环节。
这种情况必须改变。而改变的原因并非仅仅基于一个问题,而是源于五个问题。
在希腊神话中,九头蛇许德拉是一种几乎不可能被击败的怪物:砍掉一个头,就会长出两个新的。我认为用这个比喻来形容人工智能数据中心运营商目前面临的挑战最为贴切。这并非五个孤立的技术难题,需要按顺序解决。它们是五股相互关联的力量,彼此强化,随着人工智能基础设施规模的扩大,每一种挑战都变得更加严峻。如果不解决安全性和弹性问题,就无法解决碎片化问题。如果不重新思考控制平面,就无法解决电源和散热问题。每个“头”都与“身体”相连。而“身体”就是固件。
第一部分:碎片化危机
我们生活在一个异构的世界,而且情况只会变得越来越复杂。GPU、DPU、网卡以及新一代专用加速器随着每一次部署进入生产环境。每一种设备都有其自身的管理模型、行为模式以及治理逻辑。最终形成了一个由各种控制界面拼凑而成的局面,运维人员需要将它们整合为一个连贯可靠的系统。如果没有一个统一的固件基础架构支撑这一切,称之为“异构基础设施”未免有些夸张。这实际上是碎片化,披着进步的外衣,是由人工智能所需的性能需求所致,而这些性能需求又要求基础设施进行创新。
第二部分:安全势在必行
固件的作用远不止启动服务器。在多租户人工智能数据中心中,它支撑着安全的启动序列,保障更新的完整性,实现认证,并管理着集群中每个节点的生命周期。安全压力与日俱增,因为攻击面也随之扩大。当混合集群中的固件不一致或未经验证时,其风险敞口巨大,而且对于负责防御的人员来说往往难以察觉。运维人员通常只有在最关键的时刻才会发现漏洞的严重性。在人工智能工作负载既具有非凡的商业价值又极其敏感的今天,这种风险态势是不可接受的。
第三部分:功率和热能的计算
数据中心团队多年来赖以生存的静态且可预测的电源基线已不复存在。人工智能工作负载会产生动态、高频的电源和热波动,这需要从硬件层面进行实时控制,并覆盖 IT 和运维技术基础设施。诸如电压下降(VDROOP)之类的挑战会给电源供应带来压力,如果管理不善,还会危及昂贵基础设施的可靠性。仅仅依靠硬件层之上的软件仪表盘来追踪这些问题,无法提供所需的精准控制。管理层面需要从源头闭合控制闭环,在电源供应、转换和消耗的实际发生位置进行集成控制。
第四点:舰队规模已成为基本要求
一个人工智能集群可以跨越数千个节点。运维人员需要一致的资源配置、可预测的 API 行为,以及无需团队付出额外努力即可检测和修复整个集群配置偏差的能力。智能体计算模型将进一步加剧这种需求。管理基础设施的自主系统需要一个可编程且一致的控制界面。“在大多数情况下表现基本一致”的固件并非基础架构,而是一个随时可能失效的隐患。
第五点:控制平面现在至关重要
带外访问、遥测、库存管理和恢复功能不能再仅仅依靠尽力而为。当主机堆栈发生故障或遭到入侵时(这种情况迟早会发生),运维人员必须能够查看并访问集群中的每个节点。随着人工智能基础设施成本的飙升,停机不再是可以用服务级别协议 (SLA) 补偿来衡量的麻烦,而是每小时损失数百万美元的灾难性事件。控制平面的可靠性必须与其支持的工作负载一样可靠。
单独来看,这些挑战都可以解决。但综合起来,它们就构成了更为棘手的难题。解决一个问题,又会冒出两个新的问题等着你。这就是如今每个运营商、每个超大规模数据中心、每个大规模运行人工智能基础设施的企业IT领导者所面临的现实。
长期以来,业界应对这一难题的方案一直是专有工具和封闭的生态系统,层层叠加的零散解决方案,每个方案都声称能够驯服混乱,却又在悄然加剧混乱。我们相信有更好的方法:建立一个统一、开放的基础架构,让业界能够在此基础上进行构建、贡献并大规模地信任。这个基础架构基于 OpenBMC 和开放计算项目 (Open Compute Project) 的工作成果,并扩展到广泛的行业合作,通过价值链上各环节的工程技术来解决这个问题。
AMI 拥有超过三十年的固件开发经验。我们见证了数据中心在每一次重大架构变革中的演变。我们正值关键时刻,加大投入,扩大开源贡献,拓展基础技术合作伙伴关系,以找出这些挑战的根本原因,并开始促使各领域领导者携手合作,共同致力于解决这些挑战。控制平面已成为全球最宝贵基础设施的关键接口,而现状难以为继。
行业已经准备好迎接新事物。我们已准备好将其变为现实。
