Wiwynn 和 AMI：携手 AMI DCM 开展 AI 集群管理合作

2024年11月18日

随着人工智能技术的演进，数据中心必须支持更密集、更复杂的人工智能集群。高性能GPU是人工智能工作负载的核心，因此，在满足可持续发展目标的同时，应对散热、功耗和效率方面的挑战变得日益重要。为了满足这些需求，Wiwynn和AMI携手合作，推出了一款专为高密度液冷人工智能环境量身定制的解决方案。

管理人工智能集群密度的挑战

人工智能集群需要对电源、温度和组件健康状况进行精细管理，以防止过热和停机等问题。传统的数据中心工具并非为这种包含数千个GPU和计算节点的密集型集群而设计。高效管理这些环境需要一种全新的集成方法，以确保每个组件都处于最佳状态。

Wiwynn-AMI 解决方案

AMI 与 Wiwynn 携手合作，将 AMI 的数据中心管理器 (DCM) 与 Wiwynn 的通用管理系统 (UMS100) 协同工作，打造专为高密度液冷 AI 集群设计的管理平台。Wiwynn 的 UMS100 可管理液冷单元，提供实时监控，确保 GPU 和其他组件始终处于理想工作温度，从而降低过热风险并延长设备寿命。另一方面，即将发布的 AMI DCM v6.0 则作为中央平台，跟踪整个集群的功耗、散热、健康状况和碳排放指标。这使得数据中心管理员能够实时监控和调整资源，确保高效可靠的性能。

AMI DCM 的主要功能包括：

DCM v6.0 增强了 GPU 管理功能：鉴于 GPU 在 AI 集群中的重要性，DCM v6.0 引入了新的 GPU 管理功能，包括监控 GPU 利用率、温度和功耗，以及 GPU 重置和功耗限制等诊断功能。这些功能与 UMS100 的功能相结合，可提供更多洞察，例如泄漏检测、储液罐液位通知和流量变化，从而能够采取有效的预防措施。
兼顾性能与可持续发展目标：平衡人工智能集群的性能与环境保护是一项关键挑战。AMI DCM 和 Wiwynn UMS100 协同工作，优化电力和冷却利用，帮助数据中心在确保高效运行的同时降低能源消耗。这种集成方案助力数据中心实现卓越运营和可持续发展目标，这对于满足当今的行业标准至关重要。

解决固件难题

通过集中化和自动化固件管理，AMI DCM 消除了手动跟踪和更新的复杂性，使 IT 管理员能够确保所有设备的固件版本一致。该工具的强大功能不仅提高了安全性和性能，还支持批量和计划更新，从而最大限度地减少了停机时间。由于 AMI DCM 的固件管理采用带外方式，管理员无需物理访问服务器或在操作系统上安装任何软件即可检查固件版本并执行更新。此功能在分布式环境中尤为有用，因为在这些环境中，直接访问系统可能很困难或不切实际。