某钢铁集团中央研究院高性能计算集群建设项目

人工智能项目

项目背景

该钢铁集团中央研究院(技术中心)是该集团技术创新的主体和研发共享平台,自主研发一系列处于国际先进水平的高端钢产品,是高层次、高水平、多学科、多功能、开放型的集研究开发和成果应用一体的研发基地,承担集团新产品、新技术、新工艺的研究与开发。

客户需求

  • 用户需要新建一套成熟、完善的高性能计算集群,配置与业务相匹配的应用环境,用于机器学习及人工智能相关应用,以满足研发部门在人工智能、机器学习领域的研究和开发工作。

项目内容

  • 用户采购基于GPU架构下的机器学习服务器集群,采用CHESS高性能计算集群软件实现对nvidia-docker容器的支持及Anaconda框架的支持;
  • 采用Lustre搭建并行文件系统,提高IO吞吐带宽;
  • 集成Harbor搭建私有容器仓库。

项目亮点

  • 用户分三期进行建设投入,为用户提供全流程、高可靠的高性能计算集群管理解决方案;
  • 由于扩容周期时间延长,CHESS还提供操作系统乃至整个平台软件及驱动的升级维护工作;
  • 在运行过程中,系统故障率极低,体现了CHESS系统平台的高稳定性和高可靠性。

客户收益

  • 用户搭建了一套完整的HPC/AI集群,提供了高性能的敏捷性服务和突破性功能,实现作业与训练任务的流程统一调度;
  • 通过使用CHESS高性能计算平台,解决用户的集群监控与管理难题,将用户的机器学习节点统一管控起来,实现用户的作业权限分配和限制,更好地服务科研研究院。

更多案例推荐

某钢铁集团中央研究院高性能计算集群建设项目

人工智能项目

查看详情

某交通大学某学院高性能计算集群建设项目

人工智能项目

查看详情

HPC专家团队7*24小时保驾护航

免费获得技术工程师咨询及支持

公众号
留言咨询
电话咨询
电话咨询 010-82608832
回到顶部