联智科技CHESS+浪潮元脑KOS打造多计算范式统一管理平台,支持科学计算与AI计算

作者:

发布时间: 2025-10-15

浏览量: 51

当前,在工程仿真、AI4S、能源勘探、生命科学等众多领域,科学计算与AI计算任务正加速融合,对算力管理平台带来新的挑战:既要支持高精度、高稳定的科学计算,又要支持大规模、高并发的AI计算。在“稳定”与“求新”之间,异构兼容、灵活调度的底层操作系统,对于算力管理平台的价值正在不断凸显。


联智科技(北京)有限公司(以下简称联智科技)与浪潮信息元脑服务器操作系统KOS共同打造了多计算范式统一管理平台,实现科学计算、AI计算等不同计算任务的高效并行处理与资源动态分配。该平台依托于联智科技超智融合算力管理平台CHESS在异构资源管理、作业调度方面的能力,结合浪潮信息元脑KOS领先的软硬件协同、容器工具链流程优化、内核定制优化等优势,帮助用户降低异构环境建设难度,缩短部署时间,消除应用软件性能瓶颈,满足工程仿真、基础科研、能源开发、生物医药等多个领域计算需求。


科学计算与AI计算并存  算力管理平台面临挑战

随着科研智能化趋势的深化,科学计算与AI计算共存已成为众多行业的常态。以汽车研发为例,车企在车身空气动力学、电池热管理、结构安全与自动驾驶等方面存在持续的仿真与优化需求。其中,风阻分析、电池热管理属于典型的科学计算任务,而自动驾驶感知决策、电池系统故障诊断等则属于AI计算任务。这两种任务对算力的需求模式截然不同:科学计算任务通常是“计算密集型”,需要CPU提供长时间稳定、高精度的计算能力,而AI推理任务尤其是实时推理,往往是“显存峰值型”,需要GPU提供强大的并行处理能力,且负载可能瞬间飙升。


科学计算与AI计算两类计算范式在目标、资源需求和管理方式上存在显著差异,将它们统一在一个管理平台上,会引发一系列复杂的问题。

一是不同计算范式带来的兼容性挑战。以汽车研发为例,计算流体力学(CFD)仿真需要高主频、多核心的CPU和充足内存带宽,以精确模拟车辆空气动力学特性;而AI计算任务如自动驾驶仿真则依赖GPU或专用AI加速器及其显存资源,用于运行深度学习模型进行场景生成或决策验证。在软件环境方面,用于风阻分析的CFD仿真软件通常高度依赖特定的Linux发行版和长期支持的内核版本,以保障数值模拟的精确性和可复现性;而AI训练与推理框架则需要最新的GPU驱动和系统库,以支持新硬件特性和优化功能。在同一计算节点上既要满足科学计算对“不变”的依赖,又要支持AI任务对“追新”的需求,系统兼容性成为首要难题。

二是资源调度与隔离的冲突。在汽车研发中,热管理仿真与自动驾驶推理任务常被调度到同一节点上并行运行,资源竞争尤为突出。当电池热管理仿真全速运行时,其高CPU与内存占用可能导致自动驾驶推理任务资源供给不足,推理延迟从百毫秒级延长至数百毫秒甚至秒级,直接影响实时决策的安全性。反之,若自动驾驶推理突发高并发请求,可能抢占GPU或CPU资源,导致热管理仿真任务计算性能下降或排队延迟,影响仿真连续性与效率。

三是两者在性能优化上面临不同路径。在混合负载场景下,科学计算与AI任务对性能优化的侧重点不同,进一步增加了平台管理的复杂度。风阻仿真等科学计算任务追求极致的并行计算效率和内存带宽利用率,需要精细的CPU绑核与内存调度策略;而自动驾驶推理任务则更关注GPU利用率和显存管理,以降低推理延迟。当两类任务共居同一节点,平台既要保障CFD模拟的大规模矩阵求解效率,又要确保自动驾驶推理的实时响应,这就对底层CPU、GPU、内存等资源的隔离与调度机制提出了极高要求。


联智科技CHESS+元脑KOS:筑基多计算范式统一管理平台 让科研及AI任务与算力精准匹配

为了应对上述挑战,联智科技选择元脑KOS作为多计算范式统一管理平台的系统底座,形成异构兼容、融合调度、性能优化的解决方案,实现工程仿真、AI4S等场景下不同计算任务与异构算力的精准匹配,充分发挥融合算力最大价值。

首先,CHESS选择元脑KOS作为平台的系统底座,元脑KOS向下兼容CPU、GPU、DPU等多种异构芯片,构建了统一的计算资源池,并通过标准化的编程接口,确保平台能够高效地调度异构资源,并充分发挥硬件的最新特性。CHESS还优化了Lustre、BeeGFS、GPFS等并行存储驱动以及InfiniBand网络协议栈,提升了平台在处理大规模数据和并行计算任务时的性能,为科学计算提供更精确的模拟结果,减少等待时间,提高模型的准确性和泛化能力。在向上承接应用方面,CHESS完成100余款主流应用软件的深度优化,涵盖了常见科学计算软件,如用于车辆仿真测试的Star-CCM+、Abaqus,石油勘探领域的Omega、气象环保领域的WRF等,以及主流AI大模型,如Qwen、DeepSeek等。

其次,平台采用SLURM与K8s融合调度架构,兼顾科研任务的并行处理能力与智算业务的弹性伸缩需求,实现异构算力统一管控。在此基础之上,CHESS利用元脑KOS容器工具链流程优化,更好地支持容器化的AI任务,提升任务的运行效率和资源利用率。以工程仿真软件为例,容器工具链流程优化将该软件及其所有依赖项打包成一个容器上传到联智科技CHESS平台,当用户提交一个仿真任务时,CHESS平台将可根据集群资源的使用情况,选择合适的计算节点来运行该容器,具有部署简化、可移植、安全隔离、快速更新特性。

最后,针对“计算密集型”与“显存峰值型”任务交替出现的场景,元脑KOS进行了内核定制优化;针对科研任务,优化了内存调度与CPU亲和性配置,实现了内存的高效分配和CPU资源的精准利用,提升了计算任务的稳定性和执行效率;针对AI推理任务,则着重优化了GPU显存管理,实现了显存的动态分配和回收,提高了GPU资源的利用率,加速了模型的推理过程。


在汽车研发领域,多计算范式统一管理平台能有效解决工程仿真与AI任务混合部署的核心挑战。平台将用于风阻、碰撞仿真的科学计算任务(如Star-CCM+、Abaqus)与自动驾驶模型训练/推理等AI任务,统一调度至由CPU、GPU组成的异构资源池中。通过SLURM与K8s的融合调度架构,平台既保障了仿真任务对CPU和内存的长期稳定占用,也满足了AI任务对GPU资源的弹性伸缩需求,实现了两类负载的精准匹配与高效并行,不仅加速了车型的迭代验证周期,也为模型的高并发测试和实时决策提供稳定支撑。


未来,联智科技与浪潮信息将深化协同合作,为更多行业提供定制化算力解决方案,降低异构算力环境建设难度,消除应用软件性能瓶颈,降低管理、运维的高昂成本,保障用户业务安全运行、稳定发展。

HPC专家团队7*24小时保驾护航

免费获得技术工程师咨询及支持

公众号
留言咨询
电话咨询
电话咨询 010-82608832
回到顶部