在美国,exascale(百亿亿次)高性能计算系统的第一步始于2007年的一系列专题研讨。直到15年后,橡树岭国家实验室才真正上线1686 petaflops的“Frontier”系统。今年,阿贡国家实验室正准备为“Aurora”启动上线仪式,这将是美国第二或第三台百亿亿级超算设备——究竟位次如何,还要看劳伦斯利弗莫尔国家实验室的“El Capitan”何时通电。
这些百亿亿级超算的诞生之路充满了延误和挫折,期间还遭遇过技术变革、中国的竞争压力及其他挑战。阿贡国家实验室环境与生命科学计算实验室副主任Rick Stevens则表示,更进一步的zettascale、甚至是量子计算目标可能落地更慢,二者很可能都需要15到20年、甚至是更加漫长的开发周期。
而这,正是高性能计算的本质所在。
(资料图片)
Stevens在最近一场网络研讨会会上这样描述HPC计算的近期和远期发展态势,“这将是一场持久战。如果大家只关注明年会发生什么,那HPC明显不适合你。如果你想着眼于10年甚至20年的中长周期,那HPC才是最佳选择。至于向着其他恒星系探索,那就是超远期的千年大计了。总之,我们目前才刚刚起步,之前还能沿着摩尔定律前进,但现在最重要的问题是思考10年后的高性能计算会是什么样子?20年后呢?可能到时候情况已经完全不同的,我们当下就需要做好准备。”
Stevens此次演讲的主题在于AI。不只是HPC应用程序和研究工作能够从AI技术中受益2,AI管理的模拟与智能体、专用AI加速器乃至AI在大型系统开发中的作用都有巨大的想象空间。他指出,2019年至2022年间既是COVID-19突然爆发的危机时刻,也是AI大事频发的历史性阶段。
随着大语言模型(广受欢迎的ChatGPT及其他生成式AI聊天机器人都以此为基础)和Stable Diffusion文本到图像深度学习的起飞,AI技术已经被纳入蛋白质结构预测、开放式数学问题和各类HPC开发场景。也正是在此期间,百亿亿次超算系统开始真正落地。
Stevens表示,“越来越多的机构开始构建自己的大语言模型,这波爆发式增长仍在继续,而且几乎所有模型都集中在私营部门。其中只有少数是由非营利性组织完成的,且以GPT-4为代表的最强模型大多采取闭源模式。由此可见,AI模型的发展趋势并未走向种类繁多的小体量模型,而是数量有限的超大模型。这也是当前阶段内最重要的元事件。”
所有这一切——模拟与智能体、新兴AI应用和AI用例——都将在未来几年内消耗更多算力。伊利诺伊州的阿贡国家实验室的领导级计算设施(ALCF)项目考虑的正是这个问题,规划Aurora及之后的超算设计方向。Stevens和他的同事们正在构想一套比Aurora强大8倍以上的系统,征求建议书将于2024年秋季发布,实际装机计划在2028年或2029年。“对于机器学习这类低精度运算需求,这套系统预计将拥有近0.5 zettaflop,相当于当前系统的2到3倍。”
目前一大关键挑战,就是此类系统到底要搭载怎样的加速器。究竟是现有通用GPU的后续版本(针对AI模拟用例提供增强支持),还是面向AI优化的其他全新引擎?
“这是最根本的问题。我们知道模拟将继续发挥重要作用,也需要性能和精度更上一层楼的技术规范,但这项技术在AI中到底占比多少仍没有明确的答案。世界各国都在考虑下一代超算系统要如何权衡,特别是要以怎样的态度侧重于AI市场或AI应用基础。”
ALCF使用来自Cerebras Systems、SambaNova Systems、GraphCOre、英特尔Habana Labs和Groq的系统构建起AI测试环境,其中将采用专为AI工作负载设计的加速器,探索这些技术能否快速发展成熟并作为大规模超算系统的基础,以更高效率运行HPC机器学习应用。
“问题在于,通用GPU在未来的用例下能否提供充足的性能支持并与CPU紧密耦合,证明其仍然是正确的解决方案。或者说,未来会很快出现其他更好的替代方案。”其中多租户支持可能成为判断的关键。“如果某套引擎正使用节点内的一个子集,那要如何同时支持子集内的其他应用?如何使用补充资源支持节点上应用程序的具体占用?这类需求中仍有很多悬而未决的现实挑战。”
目前值得考量的几个现实问题:
此外,新的大系统该如何构建也是件麻烦事。一般来讲,新的技术浪潮(例如冷却或供电系统的变化)要求对整个基础设施做出重大升级。Stevens表示,更加模块化的设计理念(即更换组件但保留系统的整体架构)当然更具意义。系统内的模块可能比目前的节点还更大,能够定期更换且无需升级整个基础设施。
“我们要构想一个包含供电、冷却,也许还有无源光学器件的基础设施,之后就是可以频繁更换的模块,它们要具备简单接口来跟晶圆厂的制程节点对齐。另外还有电源连接器、光学连接器和冷却连接器。我们正在认真与供应商开展讨论,考虑如何开发这种模块化设计,争取在未来两年、而不是五年内实现系统内的组件升级。”
考虑到能源部各科学实验室目前拥有的资产,包括百亿亿级超算系统和数据基础设施、大型实验设施和用于科学模拟的大型代码库,ALCF正在加紧关注这些现实问题。另外,原本为百亿亿级系统组建的跨领域、跨学科实验室团队也要利用起来;Stevens介绍称,之前的团队规模达到千人级别。
再来看自动化因素。阿贡和其他实验室都掌握着超算系统和海量应用程序。于是问题来了:他们能不能找到覆盖大部分工作的自动化方法,例如创建和管理AI智能体,从而高流程更快、更轻松、更高效?这个问题目前同样没有明确的答案。
以上研究工作都在不断推进,zettascale和量子系统发展也在按自己的节奏同步进行。Stevens预计这两类系统在未来15年到20年内都没有广泛落地的可能性。Zettascale恐怕要到这个十年末才能实现低精度部署,而64位精度的系统也许要到2035年才能出现。(英特尔则认为这个时间节点可能是2027年。)
在量子计算方面,成本的重要性与技术本身同样重要。在exascale百亿亿次设备上运行应用程序两周,大概要烧掉约700万美元。而在拥有1000万量子比特(目前尚不存在)的大规模量子设备上运行相同的作业,可能要花掉50亿至2000亿美元(参见下图)。因此,这个成本必须再降几个数量级,才能以物有所值的方式真正帮助人们解决大规模问题。
“也就是说, 我们需要在发展量子计算的同时,在经典计算方面也取得持续进展,利用经典计算解决期间出现的现实问题。虽然预计zettascale的开发同样需要15到20年的时间,但这是更可以把握的发展节奏,也是我们真正触手可及的技术选项。”
所有这一切都将回归最初的主题:HPC创新需要大量时间,量子加经典的混合系统可能才是最终解决之道。未来的计算基板可能会以分子、光子甚至是其他未知的形式,工程师和科学家们距离正确答案还非常非常遥远。
Stevens总结道,“目前对技术格局影响最大的仍然是AI,而且我们对于AI技术如何重构系统、真正为大规模AI计算打造理想平台也只是略知皮毛。但游戏规则已经有所改变,如果我们在10年后重新讨论这个话题,可能思路都将完全不同。也许我们的猜测是对的,也许并不成立。总之这将是一场漫长的竞赛,期间会有很多颠覆性因素,我们要做的就是驾驭这些颠覆因素、而不是强行与之对抗。事实上,颠覆是我们的朋友,它们能让我们在既有思路之外获得新的启发和能力,所以我们应当主动寻求颠覆、拥抱颠覆。”