Keysight Technologies高级副总裁Marie Hattar指出,人工智能可以帮助支持和扩展数据中心基础设施。
人工智能对计算资源的无尽渴求正在改变基础设施,而业界正努力满足对计算能力、可扩展性和效率的需求。这促使大量投资涌入,用于重新配置数据中心架构,以满足这些需求以及其他技术需求。
问题的关键在于,创造智能需要巨大的计算能力。随着人工智能的复杂性每年以数量级增长,数据中心需要快速扩展。举例来说,需求增长如此之快,以至于到2027年,人工智能工作负载的能耗将超过些国家的总能耗。
没有放之四海而皆准的方案
人工智能正在重新定义各种数据中心的架构:超大规模数据中心、现场数据中心、主机托管数据中心和边缘数据中心。迄今为止,大多数注意力都集中在超大规模数据中心的竞争上。对计算资源的指数级需求正在催生容量超过1GW的人工智能集群。麦肯锡预测,到2030年,一些国家超过60%的人工智能工作负载将托管在超大规模基础设施上。
从超大规模到边缘:架构谱
数据中心必须能够支持人工智能工作负载,例如训练大型语言模型(LLM)。这需要彻底革新设施的设计和架构。为了支持密集型计算,每个机架的功率必须提升至200-300千瓦,并且需要增强型冷却解决方案来满足这些密度的需求。为了管理海量数据,必须集成GPU和TPU等专用硬件以及不断扩展的存储系统。
正在部署分解式架构,以便可以独立管理和扩展硬件,从而使不同的工作负载能够高效利用资源。网络架构需要更新以处理人工智能流量模式,否则人工智能集群可能会陷入数字僵局——处理能力强大的数据中心因数据瓶颈而陷入瘫痪。
除了超大规模设施外,人工智能还在推动对分布式基础设施的需求,以支持本地数据处理。这需要专为边缘工作负载设计的数据中心——在更小的物理空间内实现高性能,并降低能耗。到2030年,随着越来越多的处理转移到边缘,该市场规模预计将超过1600亿美元。
这一增长源于对更靠近终端用户的实时处理的支持需求,例如自动驾驶等应用,在这些应用中,更快的决策至关重要。这种方法可以降低延迟,并支持由物联网和5G技术驱动的超互联世界。
随着人工智能应用的成熟,推理工作负载的增长速度远快于训练模型。基础设施需要考虑从训练到推理的转变。这些推理系统利用经过训练的模型来评估实时数据,从而高效地进行预测或解决任务。
边缘互联设备将生成大量数据。因此,设施需要足够的规模来支持低延迟网络和灵活的资源分配。这将使它们能够应对不可预测的推理需求高峰。
为人工智能而扩展,也与人工智能一起扩展
人工智能对于解决扩展挑战和确保高效运营至关重要。人工智能可以通过多种方式实现数据中心的现代化,包括:
提高能源效率对于可持续运营至关重要。部署人工智能可以自动调整冷却系统和服务器工作负载,以满足需求高峰。实施智能节能技术有助于在保持性能水平的同时最大限度地减少浪费和运营成本;谷歌已将其数据中心的能源冷却成本降低了40%。
预测性维护利用机器学习来预测问题发生之前的情况。这可以最大限度地减少停机时间,并有助于延长基础设施的使用寿命。考虑到规模和成本的扩大,主动安排维修和更新以优化资源利用率的能力至关重要。
人工智能增强的数字孪生能够创建动态模型,用于测试和验证组件和系统。这些解决方案可用于确保复杂的数据中心稳健、具有弹性,并能够支持未来的需求。人工智能算法可以分析性能和环境条件的历史数据,提供洞察以优化运营。这些解决方案可以利用人工智能工作负载模拟网络性能,从而发现并修复潜在的瓶颈。先进的测试和仿真工具是构建可扩展、高效、可靠的基础设施所需技术堆栈的重要组成部分。
人工智能将加速迈向完全自主的智能数据中心,这些数据中心几乎可以处理所有操作—,从监控到维护,从网络到能源管理和安全——并且只需极少的人工投入。
面向未来的人工智能基础设施
随着人工智能的成熟,数据中心必须适应日益复杂的工作负载。运营商迫切需要以可持续的方式扩展其基础设施,以便在不牺牲性能或可靠性的情况下满足需求。由于人工智能路线图的大部分内容仍不明朗,创建灵活、具有弹性且易于适应的基础设施至关重要。
能否平衡超大规模计算能力与人工智能系统精心策划的边缘敏捷性,将决定胜负。那些拥抱这一现实的供应商将在人工智能革命中蓬勃发展,而其他供应商则会逐渐衰落。
来源:千家网
