俄罗斯科学院自动化设计研究所完成新一代并行计算集群部署,支撑复杂工业仿真与AI训练

近日,俄罗斯科学院自动化设计研究所(ICA RAS)宣布,其团队已完成新一代高性能并行计算集群的部署工作。该集群将主要用于复杂工业系统的数值模拟与人工智能模型的大规模训练,标志着俄罗斯在自主可控的高性能计算基础设施建设上迈出重要一步。

据ICA RAS官方披露,该集群基于先进的并行计算架构,集成了多代GPU加速计算单元与高带宽低延迟互连网络,理论峰值算力较上一代系统提升数倍。系统软件栈采用深度定制的Linux发行版,并集成了一批自主开发的并行任务调度与资源管理工具,可灵活支撑从传统数值仿真到现代深度学习任务的混合负载。

负责该项目的高性能计算实验室主任表示,新集群的重点应用方向包括:航空发动机与燃气轮机的全三维流固热耦合仿真、大型化工过程的多尺度建模、以及面向工业巡检、预测性维护等场景的大规模AI训练任务。“过去受限于单节点内存与计算时长,许多高分辨率模型只能运行降阶版本;如今借助千核级以上并行扩展,我们能够以更高精度模拟真实物理过程,同时将典型AI模型的训练周期从数周压缩至数天。”

在技术实现上,研发团队优化了MPI+OpenMP混合编程模型,并针对非结构网格上的有限体积法开发了自适应负载均衡算法,有效解决了多区域耦合仿真中的通信瓶颈。此外,集群还集成了针对PyTorch和TensorFlow框架的深度适配层,支持自动混合精度训练与分布式梯度规约,使AI训练部分的线性加速比在特定规模下保持在0.9以上。

ICA RAS同时强调了系统的自主可控属性。关键互联部件与冷却系统采用了国产化替代方案,基础运行环境已通过相关安全合规测试。整套集群部署于位于莫斯科的专用计算中心,并已接入俄罗斯科学院的统一高性能计算环境,后续将面向院内相关实验室以及部分工业企业开放共享。

行业分析人士指出,在工业软件与AI算力日益成为战略资源的背景下,俄罗斯持续加大对基础科研计算设施的投入。新一代集群的落成,不仅有助于提升其在飞行器设计、能源装备、材料科学等领域的数值仿真能力,也为俄国内自主AI生态的模型训练提供了重要的算力底座。

ICA RAS下一步计划围绕该集群建设行业仿真与AI融合的共性技术平台,并推动与大学、工程中心的联合研究项目,探索数字孪生与生成式工业设计等前沿方向。