某钢铁集团北京研究院高性能计算集群建设项目
生产制造项目
项目背景
该钢铁集团北京研究院有限公司是该集团为统筹科技创新力量,汇聚全球顶级科技资源,推动科技创新迈向新高度,驱动高质量发展而成立的集团级中央研究院。该院重点开展基础、前沿、关键共性、颠覆性技术研究,突破关键领域技术,着力打造关键共性、前瞻性技术研发平台、技术成果转移转化产业化平台、国家科技创新先行先试激励政策应用示范平台。
项目需求
- 为了保证稳定、高效的研发计算使用,研究院急需新建一套完善、成熟、符合应用性能的高性能计算集群系统,需要针对不同使用部门、不同应用软件,可随时按需调用硬件资源,跨平台、可控制、管理便捷的高性能集群管理系统,并保证资源弹性伸缩,适配未来计算力、存储容量及功能拓展;
- 用户大部分应用均支持Linux版本,部分应用有后处理3D加速需求,部分应用有前处理图形需求,有人工智能实训与计算需求,有串行、多线程、及并行多种计算类别;
- 同时作为大型国有重点企业,需要满足强制性、国家级法律规范要求的等级保护,还要保证数据备份安全、数据资产安全、数据价值安全。
项目内容
- 用户原有多套集群平台,此项目为新建扩容,搭建CPU/GPU异构集群,部署CHESS高性能计算管理平台,集成多种仿真软件,通过CHESS平台统一管理集群,进行系统优化与系统适配,配合用户架构适配用户采购的服务器平台,根据用户需求优化应用软件性能,实时动态分配、监控集群资源。
项目亮点
- 本项目采用分布式存储保存计算及结果数据,保证数据安全;
- 采用远程可视化方案加速3D绘图;
- 采用Windows胖节点应对用户Windows-Only及OpenMP类型应用挑战;
- 有人工智能实训与计算需求,是典型的HPC/AI融合的应用场景。
客户收益
- CHESS根据用户需求提供了一套全流程、高可靠的高性能计算集群建设及管理解决方案,帮助用户更便捷地管理集群,完全满足用户的使用需求和使用习惯;
- 支持集群计算主机弹性伸缩及动态可扩展,实现对用户的资源及优先级权限分配与限制;
- 支持等保要求的三员管理及日志审计,同时监控平台,支持与机房环控监控对接、获取数据,支持用户图形化作业提交及计时计费功能;
- 设计并规划独立的备份服务器,通过网络及时进行数据备份,实现用户数据资产的安全保障。
- 软件应用性能得到显著提升,缩短开发设计周期,提升集群使用效率,降低工作人员学习成本,增强研究所的科研实力。