为AI加速而生的全新至强 如何让数据中心玩转人工智能时代?

1956年,在达特莫斯大学的那次学会上,AI这个概念第一次被提出,标志着人工智能的正式诞生。在历经近70年的发展之后,AI也终于迎来了属于它的高光时刻。随着算力和数据的爆发,人工智能在过去几年里产生了质变,并成为了第四次工业革命中的重要基石。特别是去年生成式AI的火热,让无数行业都看到了其在提升客户运营、销售与营销,以及软件工程方法等方面蕴含的无限可能。

从实际的AI应用分类来看,可以分为两大类,一类是基于GPU的重负载训练应用,另一类则是轻负载的应用。由于后者普遍需要低延迟和高能效,因此GPU也就不再是“唯一解”。特别是对部分云厂商而言,通过使用服务器CPU混合精度实现的推理吞吐量往往能让他们带来更高的灵活性和极具优势的TCO。

而这类服务器CPU也几乎都有一个共同的名字:英特尔至强可扩展处理器。

继年初发布第四代至强可扩展处理器之后,英特尔在12月15日再次为数据中心领域献上了一份大礼:代号Emerald Rapids的第五代英特尔至强可扩展处理器。相较上一代产品,第五代英特尔至强可扩展处理器可在相同热设计功耗(TDP)范围内提供更高的算力和更快的内存。同时,该处理器与上一代产品的软件和平台兼容,使客户能够升级并大幅增加基础设施的使用寿命,同时降低成本和碳排放。

从配置上看,第五代至强可扩展处理器的核心数量增加到了64个,拥有更高的单核性能和内存带宽,三级缓存容量达到了320MB,是上一代的近三倍,此外,第五代至强可扩展处理器具备8条DDR5通道,支持高达5600MT/s的传输速率,并且采用英特尔超级通道互联(UPI)2.0以增加跨插槽内带宽,可提供高达20GT/s的传输速度。

当然,第五代至强可扩展处理器的最大惊喜还是在AI性能方面的提升。与上一代相比,第五代至强可扩展处理器在相同功耗下的平均性能提升了21%,在AI推理和训练性能的提升则达到了42%和29%。此外,由于第五代英特尔至强可扩展处理器的每个内核均具备AI加速功能,无需添加额外独立加速器,即可处理要求严苛的端到端AI工作负载,其中包括可将参数量多达200亿的大语言模型的推理性能提高42%,延迟低于100毫秒。

“至强可扩展处理器拥有业界领先的AI性能,自第一代至强处理器开始,我们就一直注重加速AI工作负载,为此我们推出了AVX-512指令集,从第四代至强可扩展处理器开始则内置了英特尔AMX(英特尔高级矩阵)加速器,致力于为至强可扩展处理器带来更优的AI性能,现在的至强在处理多数企业的AI负载时表现都十分优异。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示。

基于英特尔多年来积累的成熟的软件生态和广泛的生态合作伙伴,许多客户已经在第一时间对第五代至强可扩展处理器进行了部署,并带来了极大的效益提升。例如京东云、百度云、阿里云以及火山引擎等等。

国内知名的云服务大厂百度云围绕大规模推理和机密计算与英特尔展开了深度合作,具体来说,百度采用了4台内含第五代至强的服务器,并通过100G高速网络联合在一起对700亿参数的Llama2开源大模型进行推理,相比单台服务器,性能提升了2.85倍,处理大模型的时间则可以控制在87毫秒以内。

机密计算方面,第四代至强可扩展处理器搭载的SGX(英特尔软件防护扩展)在第五代至强可扩展处理器上被进一步拓展为英特尔TDX(英特尔可信域拓展)技术,用于提供虚拟机(VM)层面的隔离和保密性,从而增强隐私性和对数据的管理。在基于英特尔TDX的机密虚拟机中,客户机操作系统和虚拟机应用被隔离开来,不会被云端主机、虚拟机管理程序和平台的其他虚拟机访问。在TDX技术的加持下,百度云可以为合作用户提供更大的可信空间,在操作系统层面就拥有安全隔离,可以为用户提供更为安全的保障。

阿里云也在本次发布会上披露了实测的数据,基于第五代至强可扩展处理器及内置的英特尔AMX加速器和英特尔TDX技术,阿里云打造了千问大模型及数据保护的创新实践,第八代实例在多媒体、数据库、数据压缩和加解密以及AI推理的多个场景中均获得了性能提升。

坚持以“全栈自研,软硬一体”打造自身差异化竞争力的火山引擎也在第五代至强可扩展处理器的赋能之下实现了算力提升,根据火山引擎的数据,其第三代实例在人工智能、视频处理、Java应用,科学计算等主流应用上都得到了显著的增益,最高可达43%。

“在最新的实例上,我们计划推出多种基于英特尔硬件原生加速的能力,以NGX为例,使用QAT进行数据压缩和证书验证的操作吞吐量最高可提升5倍,在RocksDB使用IAA进行数据压缩读写的吞吐最高可以提升1.9倍。基于上述的性能表现,在火山引擎上的字节业务,比如基于容器的各种微服务、视频处理、火山引擎的PaaS服务,包括大数据平台和机器学习平台,都已经规划了基于我们最新第三代实例的算力升级,我们预期基于第五代至强处理器的实例上线以后,将会给我们内外部客户的各种业务带来显著的性能提升。”火山引擎IAAS产品负责人李越渊表示。

今年是生成式AI的爆发之年,不过和大多数新兴技术一样,目前多数企业对生成式AI的应用仍然处于探索阶段,在未来从理论走向实践的过程中,英特尔也会持续加大加深和开发者的交流,通过OpenVINO等工具套件降低开发者部署的难度,使得云厂商和用户能够以较低的门槛将第五代至强可扩展处理器、Gaudi2、Xeon Max等产品部署到自己的实际业务中去。

而在产品更新方面,随着不断变化的AI需求,英特尔也会针对不同的工作负载推出更加具有针对性的至强产品,包括具备更高的能效,针对高密度和横向扩展工作负载进行了优化的能效核处理器Sierra Forest,以及具备更高的性能、内核密度、内存和I/O创新,同时具有更高的能耗,针对计算密集型和AI工作负载进行优化的性能核产品Granite Rapids,为万物智能、万物互联的智能世界打好坚实的算力基础。