一图解析至强 6 作为主控 CPU 的五大优势
选择更理想的主控 CPU —— 英特尔® 至强® 6 处理器,打造更先进的 AI 加速系统,更高效地运行要求严苛的 AI 工作负载。
为什么选择英特尔® 至强® 6 处理器作为主控 CPU?
经过全球众多 AI 加速系统的广泛基准测试,英特尔® 至强® 处理器被证明是强力 AI 加速平台更为理想的主控 CPU 之选。
AI 系统的性能和利用率非常依赖主控 CPU 的协同计算、输入/输出 (I/O) 流量管理,以及保持高吞吐量运行的能力。为 AI 系统选择合适的 CPU 有助于缓解瓶颈,提升训练和推理工作负载的有效工作时长。
阅读下文,了解英特尔® 至强® 6 处理器如何凭借五大优势,成为 AI 加速系统主控 CPU 更为理想的选择:
1. 更高内存容量和带宽
训练大型生成式 AI (GenAI) 模型需要更大的内存容量来存储模型参数和权重,然后将模型传至 GPU。根据通用准则,此类 AI 加速系统的 CPU 内存容量应为 GPU 内存的 2 倍。换言之,配置八个 288 GB GPU 的系统需要 4.6 TB CPU 内存容量 (8 x 288 GB)。英特尔® 至强® 6776P 处理器可搭配 128 GB DIMM 并采用每通道 2 个 DIMM (2DPC) 的配置,可支持超过 4.6 TB 的 CPU 内存容量,每系统最高可达 8 TB。对 2DPC 的支持可实现训练大模型所需的更大系统内存容量,并实现更优的内存性能和总体拥有成本 (TCO)2。
此外,英特尔® 至强® 6 性能核处理器还支持 MRDIMM (Multiplexed Rank DIMM),可提供更高内存带宽。这项创新的内存技术能够提升带宽和性能,同时降低内存敏感型 AI 负载和其他高密度数值及仿真任务的时延。更高的内存带宽对 GPU 大规模推理至关重要,尤其是当推理过程中上下文长度增加导致 KV Cache 容量增长时,更是需要较高的内存带宽来支持。更高的内存带宽对新兴的代理式 AI 推理应用同样重要,在这类应用中主控 CPU 会起到任务编排的作用。
• 英特尔® 至强® 6 处理器采用 2DPC 配置,支持更高内存容量2,为 AI 加速系统拓存力根基。
• 支持 MRDIMM,与第五代英特尔® 至强® 处理器相比,内存带宽提升高达 2.3 倍3 。
2. 单线程性能提升
在 AI 加速系统中,一个 GPU 至少需对应 8-12 个 CPU 内核来支持,而英特尔® 至强® 6 处理器的每路内核数较上一代处理器提升多达 2 倍。其更强的单线程内核性能提升,也可加快向 GPU 传输数据的速度,助 GPU 实现更多的有效处理时间,从而缩短模型训练时间,这同样有助于优化数据预处理——这也是主控 CPU 的一项关键职能。
英特尔® 至强® 6 性能核处理器的特定型号 SKU 采用英特尔® Priority Core Turbo(英特尔® PCT)技术,能够动态地使八个高优先级内核以更高频率运行。这能够加速模型参数和权重在内存出入时的数据传输速度,并更高效地编排运行在 GPU 加速系统或使用其他加速器的系统上的任务。其余内核则以基频运行,从而优化 CPU 资源分配。英特尔® PCT 技术可为每个 GPU 配置适量的高频 CPU 内核作为其搭档,让 GPU 能够以更高能效运行,从而提升整个系统的利用率,这对需要顺序或串行处理的工作负载尤为关键。数量适当且能以更高频率运行的内核有助于实现更优的热设计功耗 (TDP)。
• 每 CPU 多达 128 个性能核,与上一代处理器相比,每路内核数提升多达 2 倍。
• 采用英特尔® PCT 技术的英特尔® 至强® 6776P 处理器(64 核)部分内核能够以更高的 4.6 GHz 频率运行与英特尔® 至强® 6767P 处理器相比,这一频率提升高达 17%4。
3. 新一代 PCIe 提供更强的 I/O 支持
PCIe 性能和通道数决定着 AI 系统的 I/O 性能,因此系统设计中需要尽可能提高 PCIe 通道可用性。英特尔® 至强® 处理器致力于为加速器、网络及存储工作负载提供更多 PCIe Gen 5 通道,包括在双路配置的英特尔® 至强® 6900P 处理器中提供 192 条通道,以及在单路配置的英特尔® 至强® 6700P 处理器中提供 136 条通道。
I/O 带宽的提升有助于加速数据卸载并提高运行效率。更高的 PCIe 通道数则有助于支持高吞吐量的 GPU、网络接口控制器 (NIC) 及存储设备。
• 与上一代处理器相比,PCIe 通道数提升高达 20%,显著提升 I/O 带宽。
• 英特尔® 至强® 6 性能核处理器,每个双路服务器提供多达 192 条 PCIe 5.0 通道。
4. 利用英特尔® AMX 指令,加速向量数据库处理
将数据加载至 AI 加速器时,可能产生 GPU 利用率瓶颈问题,因为 GPU 在等待数据加载时会处于闲置状态。采用向量数据库则能提升数据加载速度,提高 GPU 整体使用率。英特尔® 至强® 6 处理器内置有英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX),该指令集除能直接加速 AI 推理任务外,也可用于加速向量数据库。
英特尔® AMX 可提供更均衡的 AI 算力,使英特尔® 至强® 6 处理器能够作为主控 CPU 胜任多样化任务,提供更出色的系统性能和能效表现。
• 启用英特尔® Scalable Vector Search(英特尔® SVS)优化的英特尔® 至强® 6 性能核处理器,向量索引和搜索性能可实现显著提升。
• 英特尔® AMX 新增对 FP16 精度运算的支持,可在 AI 加速系统中更高效地执行数据预处理等主控 CPU 任务。
5. 更优的 RAS 支持
正常运行时间是系统优化的关键。英特尔提供更为先进的可靠性、可用性和可维护性 (RAS) 支持,通过更强的监测和控制能力,助力 AI 加速系统以更高性能运行,并减少系统停机时间,从而避免高额损失。RAS 技术支持多项先进的管理功能,包括遥测、平台监控、共享资源控制和实时固件更新等。
• 借助英特尔® 至强® 6 处理器减少业务中断显著提高正常运行时间和运营效率。
