存力升级正当时,超算之巅给出答案
超算,是计算产业的明珠,是人类探索未知的航船。超算的发展与变化,不仅代表着各个国家与地区间的科技竞争力,更将作为趋势风向标,影响整个数字化体系的走向。
在目前阶段,超算与AI计算的融合是大势所趋。为了将AI模型与AI计算融入超算体系,一轮新的超算变革正在酝酿发生。与此同时,一个关键问题也显露了出来:我们是否需要配合AI大模型风潮,打造全新且独立的存储体系?
在超算领域拥有广泛声誉的橡树岭国家实验室(Oak Ridge National Laboratory),已经就这个问题给出了明确的答案:需要。
日前,我们在橡树岭实验室发布的面向2027年构建下一代数据中心相关计划中已经看到,其明确提出了应对十亿到百亿级大模型的引入,除了需要面向传统HPC场景的PFS(Parallel file system 并行文件系统),还需要单独设立AOS(AI-optimized storage AI 优化存储)存储系统,并给出了相关的详细品类定义与规格约束。
这个信息为何重要?其又将如何影响计算与存储产业的持续发展?
让我们共同来解读一下,这个智能时代的存力信标。
科学之巅的超算答案
不久之前,诺兰导演的电影《奥本海默》在全球热映,其中对曼哈顿工程的描绘让人印象深刻。
事实上,曼哈顿工程的影响远不止于影片介绍的范围。成立于1934年,隶属于美国能源部的橡树岭国家实验室,原本就属于曼哈顿工程的一部分。作为美国乃至全球最具代表性的国家实验室,其存在目的是攻克当下最严峻的科学难题,开发具有跨时代意义的技术。
从上世纪40年代开发核反应堆,到率先在完成中子散射开展材料的相关研究,再到为半导体产业提供了一系列信息与相关技术。橡树岭国家实验室可谓在每个阶段都深度参与了信息时代的重大科学发现,被誉为人类科学之巅。
时间来到今天,橡树岭国家实验室最具盛名的能力就是超算。在的2022年全球超算Top500名单中,橡树岭国家实验室的Frontier超级计算机系统夺得第一。其凭借1.102 Exaflop/s的HPL分数,成为人类有史以来第一台“E级超算”计算机。也就是说,Frontier实现了断代式的惊人算力,其超算性能大于排在它身后的468个超算体系之和。同时,Frontier还是全球AI计算能力最强的计算体系之一,其AI计算能力已经投身到了智能交通、智能医疗等领域的探索中。
由此可见,橡树岭国家实验室在超算领域拥有极强的先进性,堪称广义超算领域的绝对权威。而在打造Frontier为代表的超算体系过程中,实验室也正以更加深邃的目光,望向AI计算与存储的前沿探索之路。
他们给出的AI存力答案,显然可以被更多超算体系,乃至数字化建设整体所参考。
对AI存力底座的明确定义
长久以来,我们都知道AI专项算力的重要性。那么是否需要在存储领域构建AI专项存力呢?这一直是个业界激烈争论的问题。而橡树岭国家实验室的答案,或许可以起到一锤定音的效果。在其发布的面向2027构建下一代数据中心方案中,明确提出了面对大模型的引入,除了需要面向传统超算场景的存储体系之外,要单独设立AOS(AI-optimized storage)品类。这也就是说,要建设传统超算业务和面向AI业务负载的两套I/O存储系统——PFS和AOS,即构建更适应、更匹配AI负载的专项存储。
这是因为橡树岭国家实验室已经意识到,未来超算将面临着越来越多的AI处理任务。这不仅仅需要算力系统的提升,更需要单独针对存储系统进行升级。因此对AI工作负载定制全新的存储子系统至关重要。
两套I/O存储系统相比较的话,很容易找到区别。
传统的PFS,更多是针对单一POSIX文件命名空间,整体业务的I/O较大,并且更多针对大文件进行运算处理,更强调集群聚合带宽,对小文件的创建或读取性能要求并不高。
而相较于PFS,AI应用折射到AOS负载上的文件更加复杂,大小不一,并且数据密集型分析占据了更大比重,在全流程中会产生大量的数据或元数据随机读写情况。这就需要存储系统既具备高达千万级的IOPS与OPS、又拥有十TB/s级别的超高带宽来进行高速顺序读写。
简而言之,新的AI负载会带来巨大的存储性能需求,这是传统PFS系统所谓无法负担的。只有存储性能极大升级,才能让AI算力利用率提升,整个模型的训练效率升级。
其次,极为重要的一点在于AI场景下计算节点故障率高,平均要达到天级甚至小时级就出现故障,因此需要频繁的断点续训,并且还有可能需要很多阶段性的模型数据与窗体数据定期保存。因此与传统的超算任务相比,AI任务需要存储具有更大的容量以及更高的效率。
接下来,我们还要看到共享存储的必要性。橡树岭国家实验室要求计算任务在任何计算节点都可以随机访问任何一个文件,从而确保AI任务在任何节点访问时性能具有强一致性。
除此之外,AOS还具备在底层文件系统与AOS之间的高效并行数据传输能力,从而确保文件的跨层调度能力。
为了保护珍贵的AI数据资产,AOS对存储可靠性的要求也提升了很多。由于各种AI训练大量采用分布式,需要在单点故障后依旧保持数据高可用、任务不中断。这需要满足跨节点的EC(Erasure Coding)能力,不像一些传统并行文件系统仅可做到节点内EC,当节点宕机后就会出现数据丢失、数据完整性受损,并且对于故障后的数据重构的性能速度,也规定了相关时长。
最后,AOS还需要具备本地数据的清洗与处理的能力,包含敏感信息去除、隐私信息过滤,甚至转码、去重等工作,从而简化数据预训练工作,提升AI任务的整体效率。
总结来说,橡树岭国家实验室已经明确提出,AI大模型浪潮不仅需要专项算力,还需要专项存力。传统的并行文件系统已经无法满足AI任务的需求,AI存储的门槛正在变得更高,定义正在更加清晰明确。
由橡树岭国家实验室的超算探索出发,AI存力的概念将影响到整个产业。
存储发展的时代信标
橡树岭国家实验室的发现,可以说是一个时代信标,它将辐射到更广泛的区域,给存储产业的升级发展提出明确信号。
首先,业界可以由此凝结成一个共识:AI需要专业算力,也需要专业存储。AI存力概念将成为大模型时代主导存储产业的骨干。
其次,我们可以看到超算领域将首先得到启示。在全球各个国家与地区,超算都是国之利器,是科技竞赛的关键节点。而在超算与AI水乳交融的发展趋势下,超算场景必须积极引入AI存力升级,设置专业的外置存储,并且积极践行以存强算,通过存储升级来提升AI算力利用率。比如将AI大模型密集型计算之前,为了降低计算通信开销比,可以将一部分数据预处理下沉到存储层完成,以此节省AI算力。最终可以通过存储来提升超算体系的先进性与自主性。
接下来,我们还可以看到这一趋势将释放到超算场景之外。在AI大模型走入千行百业的进程中,各个领域都需要考虑存储是否能够适配AI模型与算力系统。适时进行存储升级,实现存、算、AI的相辅相成,是智能化发展过程中的关键。
这些启示,对于中国存储产业的发展,尤有至关重要的意义
存力勃发、时代之选
在大模型发展中,存力是前提条件,也是产业支柱。尤其对应到中国在实现科技自立自强,推进数实融合的大势当中。AI浪潮恰好是一个绝佳契机,可以以最低成本,最高价值实现存储产业的全面升级更新。
从目前全球主流趋势来看,存储升级对AI发展的助力是多方位、全面性的。是一个高吞吐、可共享、大容量、高可靠的存储系统,是产业智能化、经济智能化发展的关键。
在这个趋势下,中国存力建设有以下几个机遇需要紧紧把握:
1.扩大存力规模,提升先进存储占比。
随着AI大模型的崛起,以及AI深入到超算、大型政企数字化等场景,会有更多企业倾向于进行本地化的AI训练与相关数据存储。这个过程中,既需要扩大存力整体规模,也需要提升以全闪存为代表的先进存储占比,以此来满足智能化发展所需。
2.提升存储技术创新,应对AI时代的数据复杂性。
AI带来了数据复杂性与应用流程多样性等一系列挑战,因此存储的先进性必须得到进一步提升。比如说,在建设数据湖的过程中,多数据中心、多业务系统的数据归集缓慢且复杂,跨业务的数据倒换的低效且繁琐,都给存储带来了考验。因此,存储需要提升协议互通能力、数据跨域调度、跨系统可视化数据管理等能力。以存储技术创新,应对AI时代的一系列技术挑战。
3.提升存储安全与运维能力,确保AI发展无忧。
AI大模型不仅带来了数据的复杂性,还带来了一系列全新的安全隐患,以及愈加复杂的存储运维管理压力。因此,存储需要积极践行主动安全、自动运维等能力,从而确保AI体系的健康发展。
在这些努力的坚持不懈下,AI存力将得到极大发展。就像我们知道AI算力即生产力,AI存力也将在未来成为生产力释放的关键,成为产业智能化的引擎。
总结起来,一项产业升级与技术发展,首先需要找到信标,读懂趋势。如果说此前我们对于AI专项存储的定义与发展还有争议,那么橡树岭国家实验室对未来数据中心的定义,就是为这一争论画下了句号。
依靠其在超算领域,乃至全球科研界的地位,首先我们可以看到AI存储本身的绝对必要性。其次可以对AI存储的定义、门槛与发展规范提出详细的要求。由此一来,我们可以在越来越多的证据下,清楚地看到AI大模型时代存储升级的必然。
AI存力的价值,在顶级实验室的论证与探索中可以证明;在存储产业多年来走向自主化、先进化的发展脚步中可以证明;在每一次AI训练之后,模型开发者对存储价值的慨叹中可以证明。
抓住AI机遇,促使存力勃发,是时代之选,更是时代之幸。