ZETTASCALE与量子计算：一条漫长而曲折的发展之路

在美国，exascale（百亿亿次）高性能计算系统的第一步始于2007年的一系列专题研讨。直到15年后，橡树岭国家实验室才真正上线1686 petaflops的“Frontier”系统。今年，阿贡国家实验室正准备为“Aurora”启动上线仪式，这将是美国第二或第三台百亿亿级超算设备——究竟位次如何，还要看劳伦斯利弗莫尔国家实验室的“El Capitan”何时通电。

这些百亿亿级超算的诞生之路充满了延误和挫折，期间还遭遇过技术变革、中国的竞争压力及其他挑战。阿贡国家实验室环境与生命科学计算实验室副主任Rick Stevens则表示，更进一步的zettascale、甚至是量子计算目标可能落地更慢，二者很可能都需要15到20年、甚至是更加漫长的开发周期。

而这，正是高性能计算的本质所在。

(资料图片)

Stevens在最近一场网络研讨会会上这样描述HPC计算的近期和远期发展态势，“这将是一场持久战。如果大家只关注明年会发生什么，那HPC明显不适合你。如果你想着眼于10年甚至20年的中长周期，那HPC才是最佳选择。至于向着其他恒星系探索，那就是超远期的千年大计了。总之，我们目前才刚刚起步，之前还能沿着摩尔定律前进，但现在最重要的问题是思考10年后的高性能计算会是什么样子？20年后呢？可能到时候情况已经完全不同的，我们当下就需要做好准备。”

Stevens此次演讲的主题在于AI。不只是HPC应用程序和研究工作能够从AI技术中受益2，AI管理的模拟与智能体、专用AI加速器乃至AI在大型系统开发中的作用都有巨大的想象空间。他指出，2019年至2022年间既是COVID-19突然爆发的危机时刻，也是AI大事频发的历史性阶段。

随着大语言模型（广受欢迎的ChatGPT及其他生成式AI聊天机器人都以此为基础）和Stable Diffusion文本到图像深度学习的起飞，AI技术已经被纳入蛋白质结构预测、开放式数学问题和各类HPC开发场景。也正是在此期间，百亿亿次超算系统开始真正落地。

Stevens表示，“越来越多的机构开始构建自己的大语言模型，这波爆发式增长仍在继续，而且几乎所有模型都集中在私营部门。其中只有少数是由非营利性组织完成的，且以GPT-4为代表的最强模型大多采取闭源模式。由此可见，AI模型的发展趋势并未走向种类繁多的小体量模型，而是数量有限的超大模型。这也是当前阶段内最重要的元事件。”

所有这一切——模拟与智能体、新兴AI应用和AI用例——都将在未来几年内消耗更多算力。伊利诺伊州的阿贡国家实验室的领导级计算设施（ALCF）项目考虑的正是这个问题，规划Aurora及之后的超算设计方向。Stevens和他的同事们正在构想一套比Aurora强大8倍以上的系统，征求建议书将于2024年秋季发布，实际装机计划在2028年或2029年。“对于机器学习这类低精度运算需求，这套系统预计将拥有近0.5 zettaflop，相当于当前系统的2到3倍。”

目前一大关键挑战，就是此类系统到底要搭载怎样的加速器。究竟是现有通用GPU的后续版本（针对AI模拟用例提供增强支持），还是面向AI优化的其他全新引擎？

“这是最根本的问题。我们知道模拟将继续发挥重要作用，也需要性能和精度更上一层楼的技术规范，但这项技术在AI中到底占比多少仍没有明确的答案。世界各国都在考虑下一代超算系统要如何权衡，特别是要以怎样的态度侧重于AI市场或AI应用基础。”

ALCF使用来自Cerebras Systems、SambaNova Systems、GraphCOre、英特尔Habana Labs和Groq的系统构建起AI测试环境，其中将采用专为AI工作负载设计的加速器，探索这些技术能否快速发展成熟并作为大规模超算系统的基础，以更高效率运行HPC机器学习应用。

“问题在于，通用GPU在未来的用例下能否提供充足的性能支持并与CPU紧密耦合，证明其仍然是正确的解决方案。或者说，未来会很快出现其他更好的替代方案。”其中多租户支持可能成为判断的关键。“如果某套引擎正使用节点内的一个子集，那要如何同时支持子集内的其他应用？如何使用补充资源支持节点上应用程序的具体占用？这类需求中仍有很多悬而未决的现实挑战。”

目前值得考量的几个现实问题：

此外，新的大系统该如何构建也是件麻烦事。一般来讲，新的技术浪潮（例如冷却或供电系统的变化）要求对整个基础设施做出重大升级。Stevens表示，更加模块化的设计理念（即更换组件但保留系统的整体架构）当然更具意义。系统内的模块可能比目前的节点还更大，能够定期更换且无需升级整个基础设施。

“我们要构想一个包含供电、冷却，也许还有无源光学器件的基础设施，之后就是可以频繁更换的模块，它们要具备简单接口来跟晶圆厂的制程节点对齐。另外还有电源连接器、光学连接器和冷却连接器。我们正在认真与供应商开展讨论，考虑如何开发这种模块化设计，争取在未来两年、而不是五年内实现系统内的组件升级。”

考虑到能源部各科学实验室目前拥有的资产，包括百亿亿级超算系统和数据基础设施、大型实验设施和用于科学模拟的大型代码库，ALCF正在加紧关注这些现实问题。另外，原本为百亿亿级系统组建的跨领域、跨学科实验室团队也要利用起来；Stevens介绍称，之前的团队规模达到千人级别。

再来看自动化因素。阿贡和其他实验室都掌握着超算系统和海量应用程序。于是问题来了：他们能不能找到覆盖大部分工作的自动化方法，例如创建和管理AI智能体，从而高流程更快、更轻松、更高效？这个问题目前同样没有明确的答案。

以上研究工作都在不断推进，zettascale和量子系统发展也在按自己的节奏同步进行。Stevens预计这两类系统在未来15年到20年内都没有广泛落地的可能性。Zettascale恐怕要到这个十年末才能实现低精度部署，而64位精度的系统也许要到2035年才能出现。（英特尔则认为这个时间节点可能是2027年。）

在量子计算方面，成本的重要性与技术本身同样重要。在exascale百亿亿次设备上运行应用程序两周，大概要烧掉约700万美元。而在拥有1000万量子比特（目前尚不存在）的大规模量子设备上运行相同的作业，可能要花掉50亿至2000亿美元（参见下图）。因此，这个成本必须再降几个数量级，才能以物有所值的方式真正帮助人们解决大规模问题。

“也就是说，我们需要在发展量子计算的同时，在经典计算方面也取得持续进展，利用经典计算解决期间出现的现实问题。虽然预计zettascale的开发同样需要15到20年的时间，但这是更可以把握的发展节奏，也是我们真正触手可及的技术选项。”

所有这一切都将回归最初的主题：HPC创新需要大量时间，量子加经典的混合系统可能才是最终解决之道。未来的计算基板可能会以分子、光子甚至是其他未知的形式，工程师和科学家们距离正确答案还非常非常遥远。

Stevens总结道，“目前对技术格局影响最大的仍然是AI，而且我们对于AI技术如何重构系统、真正为大规模AI计算打造理想平台也只是略知皮毛。但游戏规则已经有所改变，如果我们在10年后重新讨论这个话题，可能思路都将完全不同。也许我们的猜测是对的，也许并不成立。总之这将是一场漫长的竞赛，期间会有很多颠覆性因素，我们要做的就是驾驭这些颠覆因素、而不是强行与之对抗。事实上，颠覆是我们的朋友，它们能让我们在既有思路之外获得新的启发和能力，所以我们应当主动寻求颠覆、拥抱颠覆。”