可预测性的承诺:确定性人工智能性能是白日梦吗?

引言: 在半导体世界中,每隔几年就会出现一个所谓的“范式转变”。这一次,热议的焦点是确定性CPU,它们承诺解决AI领域推测执行的棘手问题。但正如所有大胆的声明一样,我们应该明智地抱持怀疑态度,审视这种新架构是真正兑现其崇高承诺,还是仅仅提供了一个小众解决方案且附带未被承认的权衡。
核心提炼
- 提出的确定性、基于时间的执行模型旨在减轻安全漏洞(例如 Spectre/Meltdown),并通过用静态指令调度取代推测执行来提高 AI/ML 工作负载的可预测性。
- 它的核心价值主张在于专用的向量/矩阵处理单元 (GEMM),这表明它在处理特定且结构高度化的工作负载时,直接挑战了谷歌TPU等现有AI加速器。
- 尽管其吹捧“乱序执行效率”,但向静态调度的根本性转变,却为通用工作负载带来了新的复杂性和潜在的性能瓶颈,这引发了人们对其在小众AI之外更广泛适用性的质疑。
深度解读
所提出的论点令人信服:几十年的推测执行,尽管无可否认地提升了通用CPU性能,却已将我们带到了安全漏洞和收益递减的十字路口,尤其是在面对现代AI不规则的内存访问模式时。据称,解决方案在于“一种根本性的新方法”——一种确定性的、基于时间的执行模型,并由一套新专利所倡导。这种架构利用时间计数器和寄存器记分牌,有望为每条指令分配一个精确的执行时隙,从而消除失败的推测分支所带来的功耗浪费和不可预测性。
从表面上看,这种方法对AI工作负载的吸引力是显而易见的。矩阵乘法和向量操作构成了神经网络的基础,一旦依赖关系解决,它们通常会表现出可预测的数据流。通过预先调度这些操作,系统避免了在遇到长时间内存读取或不可缓存加载时,困扰推测性设计的代价高昂的流水线清空。与谷歌TPU的比较是一个大胆的举动,直接将这种设计与成熟的、专用AI加速器对标,而非通用CPU。对可配置GEMM单元和RISC-V指令集提案的强调,暗示了一种模块化、可能开放的高效AI计算方法。
然而,这一“突破”严重依赖于这种确定性调度的效率。尽管它声称在没有寄存器重命名或推测比较器开销的情况下,仍能保持“乱序执行效率”,但复杂性并未消失;它只是转移了。取代动态预测和回滚,我们现在拥有复杂的静态规划,涉及“时间计数器和寄存器记分牌”以及“时间资源矩阵(TRM)”。这一规划阶段,尽管发生在指令分派时,仍然必须考虑所有资源可用性和数据依赖性,以确保最佳执行。这种方法的成功完全取决于编译器生成最佳调度的能力,以及硬件提前高效解决复杂依赖关系的能力。这是一个经典的权衡:通过将复杂性从运行时转移到设计/编译时,以获得可预测性和安全性。对于高度结构化的矩阵操作,这可能是一个净收益。对于任何不那么完美可预测的事物,情况可能会大相径庭。
对比观点
尽管AI确定性执行的承诺很诱人,但我们必须审视其实际情况和潜在盲点。该文章迅速驳斥了静态调度会引入延迟的观点,声称“延迟已经存在”。这是一种讨巧的托词。诚然,数据依赖性确实会产生固有的延迟,但传统的推测执行CPU会通过激进的并行执行和预测来试图隐藏它。相比之下,确定性模型必须通过预先调度指令来明确地考虑这种延迟。这从根本上限制了处理器对不可预见的事件或高度可变工作负载做出动态反应的能力,而这些情况在纯粹的矩阵运算之外很常见。为了在各种指令类型之间实现真正的最优调度,特别是那些具有非确定性内存访问模式或条件分支的指令,“时间计数器和记分牌”的开销可能相当可观,这可能会侵蚀其所承诺的效率增益。此外,与TPU相比,其基于“早期分析”提出的“更低的成本和功耗”的主张,是新兴架构的常见论调。在实际芯片中大规模地证明这一点,以对抗行业巨头巨大的工程和优化投入,是一项艰巨的任务。市场已经看到,许多有前景的专用架构由于通用解决方案及其成熟软件生态系统的主导地位而未能获得市场吸引力。
前景探讨
在未来1-2年内,这种确定性架构很可能仍局限于专业利基应用领域,主要面向其可预测性能能够带来显著益处的特定AI/ML加速任务。我们可能会看到初步原型或开发套件的出现,并附带与现有AI加速器对比的更精细的基准测试数据。然而,最大的障碍不仅仅是技术上的,还包括商业和生态系统方面。构建一个强大的软件栈、说服开发者采纳新的编程模型(即使是基于RISC-V的),以及证明其超越“早期分析”阶段的可扩展性和成本效益,都将至关重要。NVIDIA CUDA生态系统根深蒂固的强大影响以及对现有CPU和GPU架构的巨大投入,构成了难以逾越的进入壁垒。尽管确定性解决了围绕安全性和可预测性的合理担忧,但它不太可能在短期内预示着通用计算领域推测性CPU的大规模取代。其最佳策略是为特定、预定义的AI工作负载,开辟一个作为高效、安全协处理器的有利地位。
原文参考: Moving past speculation: How deterministic CPUs deliver predictable AI performance (VentureBeat AI)