中国科学院空天信息创新研究院高性能计算集群建设
国防军工项目
项目背景
中国科学院空天信息创新研究院(简称“空天院”)在中国科学院电子学研究所、遥感与数字地球研究所、光电研究院的基础上整合组建,是以空天信息为研究主体,从事空间信息创新发展研究的科技机构,主要研究空间电子学核心器件、先进载荷技术与系统、遥感与数字地球科学、空天信息处理与应用、航空/ 临近空间观测平台以及导航技术等重大领域。
客户需求
- 客户需要搭建一套高性能计算平台,集成第三方科学工程软件,服务于科研人员在数值仿真、气动计算、深度学习模型训练及推理等方面的工作,部署运行自主研发的应用软件,并支持主流人工智能框架。
项目内容
- 该高性能计算平台硬件配置提供不少于1000个CPU物理核计算能力、不小于1 PFLOPS FP16深度学习训练能力;
- CHESS提供并行计算环境,包括但不限于用户管理、资源调度、计算调度、GPU调度、数据管理、应用管理等模块,支持三种以上常用的调度器,同时支持GPU单卡、多卡共享和独占调度,且支持物理机和容器两种方式运行AI框架。
项目亮点
- 该平台所有服务器均部署国产化品牌,集群管理平台也是国产化软件CHESS,整个系统在保证自主可控的同时也具有扩展性、普适性;
- 整个系统支持x86、ARM、GPU和Power等混合架构调度管理,支持常用高性能计算软件的应用模板,可根据需求定制应用交互参数。
客户收益
- 通过CHESS对X86、ARM、GPU等混合架构调度进行有效管理,并支持物理机和容器两种方式运行AI框架,满足不同应用的并行环境需求;
- 整个系统采用国产化软硬件产品及方案,在保证安全可靠的同时,适配国内外多种仿真应用软件,全方位满足该院的科研计算需求。