从科学研究到工业生产,再到日常生活,AI算力变革正渗透到各行各业。尽管人工智能技术的发展带来了各种新机遇和新变革,但在高效计算和存储、数据安全、算力部署等方面的变化,也为企业带来的诸多挑战。至顶网邀请领先的科技厂商戴尔科技,携手联智科技、长江商学院以及媒体观察员共同就相关话题进行深入探讨。
访谈嘉宾
王铁军 长江商学院 CIO
付鸿雁 联智科技CEO
吴跃 戴尔科技集团AI企业技术架构师,全球CTO大使
王聪彬 至顶网总编助理
【问题1】生成式AI为您所在的行业带来了哪些变化和创新机会?
首先请问王总,从您来看,从我们的商业领军人才培养这个行业,他们对于生成式AI融入到我们行业里有怎样的趋势和变化,给我们整体行业带来什么样一些机会?
王铁军:关于生成式AI,我们先说长江商学院,大家都知道长江商学院致力于培养具有全球视野,全球资源整合能力,社会责任感和创新精神的新一代企业家为己任,我们成立了二十多年,一直在朝着这个方向去努力。
对于生成式AI和大模型这些新的技术,我们一直关注并且一直在我们教学和科研环境当中在充分去运用,因为我们一定是跟这个社会最新最先进的潮流和技术,所有企业家和所有的商业人士对这方面也是非常关注。从我们的角度,在大模型和生成式AI我们很早就开了这样的课程,也有很多教授在做这样的研究,包括AI的前世今生,包括AI现在发展最新的格局,以及未来发展的方向,其实这些东西对我们来说都是非常重要的一个课题。
【问题2】人工智能融入到各行业为算力部署带来了哪些新变化?
主持人:确实,我们不仅从原来的AI到现在生成式AI,我们都在做一定的探讨,请问吴总,人工智能在融入各行业之后,他们对于算力部署上带来什么样一些变化?
吴跃:刚才王老师和大家畅想了一下整个AI产业应用,包括从我们商业未来人才的培养。从整个我们产业界的角度,我们现在确实看到AI现在在很多行业,包括互联网,包括像金融、制造、零售、高校等科研,我们在各个行业大家都在积极探索AI的行业场景化应用。但每一个整个场景化应用的背后,都离不开算力的支撑,随着AI应用规模逐渐扩大,确实它对于我们整个算力平台也发生了很多的一些相应的变化。
首先第一点非常明显,我们之前不管是学校的科研平台,还是我们企业级应用IT平台,我们硬件的计算平台,包括整个系统管理基本上大家都是围绕着CPU去展开的,但是现在随着AI技术兴起,因为它对计算力有更高要求,现在以GPU为代表的异构加速芯片在未来它会变得越来越重要。
所以涉及到我们今后的一些加速服务器选型,特别是针对我们之前的AI,包括今天我们所谈的我们整个硬件平台,包括我们配套的供电、散热设施,以及包括我们对硬件资源我们的一些虚拟化,我们的云化管理和调度编排的机制,可能也会经过从CPU到以GPU为代表的异构加速芯片架构的转换。
另外,值得我们重点关注的,就是因为AI技术不断发展,和我们企业很多系统,比如说制造业产线系统,或者是零售商超结算系统一些具体场景的结合,对我们计算发生的场地也发生一些变化。以前我们很多都是在数据中心端,现在因为我们很多AI业务对于响应的延迟要求会更高,未来可能会有越来越多一些AI的计算会出现在我们边缘侧,边缘计算也是我们现在在企业级计算里讨论比较多的话题,可能AI计算和边缘计算这样的结合也是我们值得去关注的一个趋势。
【问题3】生成式AI将和高性能计算行业如何结合赋能行业?
主持人:我们异构计算可能是未来企业AI主要去发展的方向,从联智科技看,联智科技专注于高性能计算整体领域,请问付总,从您来看生成式AI和我们高性能计算行业是怎么样来做结合和赋能的呢?
付鸿雁:我们先从高性能计算之前的应用领域说起,原来广泛应用于天气预报,污染预测,像石油行业里面的地震资料处理,生物信息里面的基因分析,制造型企业的一些仿真设计等等这些领域里面。
但是,人工智能大模型来了,它的计算量非常大,所以它不再是过去我们主流的AI平台了,用K8S加容器,加GPU虚拟化,而是回归到了HPC架构上来,所以对我们做HPC的平台就天然支持了大模型场景。所以对我们这个行业机遇它可能会带来一些新的机会:比如说互联网,还有各个行业有大模型,像医疗有医疗大模型,我也见到有法律大模型,还有用大模型来做天气预报,气候模拟等等。
还有我也见到一些原来用计算模拟方式解决HPC的问题,也尝试用人工智能方式去解决。所以,人工智能和AI原来高性能计算,它其实是相辅相成,互相促进的。有了高性能计算过去几十年的发展,它的软件硬件都趋于成熟和稳定,然后又积累了大量数据,性能也飞速提升,才有了人工智能大模型在现在这个时代得以爆发。
而人工智能又为HPC带来了一些自动化、智能化,还有一些创新性,它可能会推进一些科学研究或者企业的一些应用,也可能会解决一些世界性或者非常有挑战性的技术难题。
所以,我觉得在现在这个时代特别让人兴奋,所以我们也是拥抱这种变化,期待各种创新,希望伴随整个时代的发展我们一起成长。
主持人:像您说的它有点像一个螺旋式成长的方式,我们HPC原来专注的几个领域之外,我们有一个新的拓展和新的创新方向。
【问题4】长江商学院的算力基础设施建设情况如何?
我想问一下王总,从长江商学院来看,我们怎么做算力基础设施建设,刚才我们听到未来如果用生成式AI可能我们需要用一些异构计算,我们要把基础设施做一些迭代和升级。
王铁军:是这样,刚才两位嘉宾说的我非常认可,现在确实是我们进入了算力需求大爆发的年代,因为我一直说其实我们爆发的核心是,我个人觉得用直白的话说就是人类的欲望和人类对改变这个世界这种迫切想法的需求在不断增加。
我觉得基础设施主要就是三个方面,就是运算、存储和传输,不外乎这三个方面,您随便说多么高大上的一个数据中心最后提供的功能,或者提供的效用,其实主要就是运算能力、存储能力和传输能力。今天如果我们单纯讲运算,过去我们高性能计算,甚至是超级计算机都已经能够满足很多需求了,但是现在大规模、大模型的需求出现,让人工智能自我学习,在弱监督甚至无监督情况下不断去学习和提高,大量把人类所有的知识和能量全部都溶化进来,吸收进来,甚至产生新的我们自己都不知道新的东西,在这种情况下确实对计算有非常大的需求。
对于我们长江商学院,对于我们学校来说,我们自己对运算的需求也是一直不断在提高的,最开始时候可能我们私有化部署几台高性能服务器就可以满足一部分运算,我们甚至可以在外面订购一部分这样服务。我们现在大量还是在云上,目前我们很多计算能力都是在云上,放在云上它最大的点有弹性的架构,有成本上的考量,短期成本的考量,也有新技术新应用的实施和应用便捷性,这是我们目前。如果看到未来,我觉得对我们来说可能需要应用的方面会更多,我们现在生成式人工智能,我们自己内部的尝试,一个我们有大量的科研人员、研究人员,你要是在授课要有足够的材料和知识支撑能力,这些科研和研究人员他对知识,我们会花大量钱去买顶级数据库,做搜索、整理、调研,来做这些事情,它周期很长。举个例子来说,你把某一个航空公司近十年的业绩情况进行比较,把同类的内容进行比较,再把这些特点整理出来,如果人工可能会耗时非常长,需要查阅大量数据库。现在我们尝试用通用人工智能大模型,大数据,你用自然语言给它下命令,它可能很快就给你生成出来,这是一个。
另外一个呢,大家知道很常见很常用的文本和图片的生成能力。比如说大量的内部调研文档或者办公文档,或者是我们需要文字创意性的文档、还有市场活动的宣传文案,所有这些东西过去生成它的周期也是很长,包括图片、海报生成,包括一些广告甚至放在各个搜索引擎和媒体平台上的内容,过去的生成都是需要有专业的团队、专业公司、专业人士,根据我们需求一遍遍改,一遍遍做,这个周期很长。
现在我们也在尝试用人工智能的方式直接把我们的需求用自然语言方式说出来,这个结果就呈现出来。呈现出来之后如果觉得哪不满意再把改进的需求给它再说出来就好了,这个对我们来说这个应用还是挺广泛的。
从我们角度来讲,咱们不说自己内部,因为我们教育行业和像你说的公共服务、大健康、政府,包括天气这种大量的数据比,可能我们相对来说数据深度没有那么深,没有那么厚的数据,但是在自己内部浅层应用,我们就已经能够感受到人工智能带来的巨大影响。为此,我们也愿意做一些投入去提高我们的计算能力,提高我们的计算稳定性,来增加我们在这方面的能量储备,来适应这个时代的发展。
【问题5】现阶段算力基础设施建设会遇到哪些挑战?行业有哪些具体表现?
主持人:刚刚王总讲了很多我们的一些尝试,都是我们大模型多模态能力,我们也看到像教育行业已经在应用我们的生成式AI这些能力了,请吴总帮我们分享一下,如果其他的行业来看,从您的角度他们的算力基础设施在部署大模型的情况下,他们会遇到什么样的挑战?尤其像我们的教育、制造,以及更多的行业。
吴跃:每个行业它的算力平台可能会有他们自己的需求和自己的一些业务特点,比如像刚才我们所讨论的教育行业,教育行业现在对AI的算力平台主要是集中在两大类,一类就是我们的科研平台,科研平台主要是用于我们很多的模型开发,训练和迭代,往往是需要比较高的算力,包括一些GPU的并行训练技术,和我们刚才所讨论的HPC这两块结合比较紧密。
另外一类,随着我们现在AI课程的教学,开课越来越多,我们很多学校现在需要一套实训平台,学生实验平台,大家可以用来去做一些AI模型的演示和实验性工作,可能实验平台又有它自己的特点,因为一般学生数量会比较多,一个班两个班的学生,但单个学生算力需求量相对来说比较轻,往往在这里面我们碰到比较多的就是GPU虚拟化需求,希望实现GPU资源的切割,如果到了一些其他的行业,可能又会是有一些不太一样应用的场景,像制造行业现在比较典型的对AI包括现在大模型的应用,第一个是在产品智能化领域里,我们有很多比如说我们的一些手机,比如说我们智能化的家电,包括我们现在比较热门的汽车智能驾驶,智能座舱,它的内部和我们AI的视觉、语音,包括自然语言处理技术结合在一起,通过AI去赋能产品,让产品更加智能化和差异化,往往背后它的产品研发这种训练平台是需要用到比较多的AI GPU算力资源的。
还有另外一类很热门的场景,我们之前比如说我们在做一些新能源,我们在做一些新材料,包括一些光伏这些行业户通过AI的技术,在产线比如说通过视觉的方式去做工业产品的缺陷检测,去做一些良品率分析,公益参数优化等等,也会需要用到AI的算力平台,这个可能又跟我们刚才谈到的边缘计算结合比较多,因为往往它需要部署在产线的边缘,以达到这种实时的检测响应速度。
总结一下,我们看到包括还有其他的一些行业,比如金融行业有很多现在将AI用于算法交易,用一些智能风控的场景,包括零售行业去做一些商品识别,自动称重,无人货架的领域。如果我们梳理一下,现在AI的技术对于整个算力平台技术架构的需求和挑战,我们大致可以总结为四个字“算网存管”。
一是本身算力平台,针对现在以GPU包括现在的AI专用加速芯片为代表的一些异构加速平台的设计,为了能够保障GPU它可以稳定运行,很多时候我们在这个计算平台上要进行专门设计的,我们会设计专门针对GPU计算的专用的加速服务器,可能像GPU一般功耗都很高,和CPU相比,如何能保证它的供电,如何保证它散热的技术,包括针对GPU它不同的时间段散热不同,我们去动态调节一些比如像风扇的转速和我们设备的整个散热特性,这些都是我们在研究应对的课题。
像网络端,因为随着现在大模型逐渐深入应用,特别是在模型训练,包括一些比较大规模精调的场景,可能会需要用到HPC的架构多级分布式训练,实际上对于GPU节点之间网络通信带宽,通信延迟和传统一般的业务也会有一些更高的要求。而且现在我们发现,真正很多在计算的环节,比如在训练阶段,可能很大的时间消耗并不是发生在计算侧,而是发生在通讯侧。
三是从数据平台的角度,整个AI全生命周期都离不开数据,其实我们现在在做AI一些比较热门的场景主要集中在非结构化的数据处理和知识发现上,像图像、视频、文本,非结构化数据的特点就是数据量很大,数据价值密度比较高,怎么样去设计一个可以能高容量、高性能,可以按需扩展的一个数据平台,这可能是AI在存储侧我们看到的一些需求和需要解决的地方。
四是从管理的角度,随着我们业务的规模逐渐增大,不管是我们科研平台还是我们企业训练平台,包括像类似于ChatGPT这样一些线上大规模推理平台,针对我们大量像GPU为代表的异构算力的集群统一管理,这样的一些资源编排和按需调度,包括对于大模型的安全管理机制,这可能都是需要在软件管理的角度,我们需要有一个比较妥善的方案来应对和解决的。
【问题6】目前各个行业是如何部署高性能计算?
主持人:吴总从四个方面帮我们整体讲述了企业现在应该注意的问题,付总已经给我们讲述了很多行业是怎么来用HPC的,请您再具体介绍一下现在各领域在部署高性能计算上是怎么来做的?
付鸿雁:说到部署我想扩展去说一下,它不仅仅是我们建设的一个过程,我们也可以用四个字来总结一下,“买建管用”。
首先第一个是“买”,我们买什么,这里面需要做一些方案和架构的设计和选型,为什么说这个比较重要,因为我们交付二十多年的高性能计算有上千个项目,我们会发现有时候我们到了用户现场去安装调试时候,用户买来的设备和它的应用场景匹配度并不高。
所以,我们经过很多年的经验积累,我们是希望前期帮助用户去做一些方案和架构设计,比如说你做气象模拟,你对CPU、网络和存储的容量要求就非常高,你要是做生(物)信(息)你对IO的带宽、内存有比较高要求,反而节点中间的通讯就没有那么高的要求了。
所以我们希望你在搭建一套高性能计算设备之前就把方案设计好了。第二步才到我们到现场的部署工作,部署主要分三个大的层面,最底下是硬件,包含刚才王老师说的有CPU、GPU、内存、网络、存储几个大的部件,除了这几个部件连通以外我们最关注还是性能,所以我们在部署时候会对每一个部件性能做诊断分析和优化。
最简单的道理,我们硬件出厂时候它也不一定是性能最优的配置,所以到了用户现场我们还要根据用户一些场景去调,使得硬件达到最优性能,这是部署中涉及到硬件的。
在硬件上一层就是系统和软件,我们需要把堆叠在一起的硬件设备构建出来一套集群系统,所以它就需要操作系统,需要集群软件,还需要应用的一些环境,构建一个应用和硬件之间的桥梁。
再上一层是各种各样的应用软件,我们需要把各种各样各行业的应用在硬件的平台上移植、调优,使得每一个硬件上面应用的性能发挥得更好,所以这个是部署的时候,最关注的一点还是性能。
剩下的就是“用”和“管”,这是一个长期的过程,你伴随着硬件设备的生命周期,你都希望它具有最优性能,所以在管上面你要选一些合适的平台,用上也是一样,还有长期需要一些服务支撑,你才能有很多年都维持一个非常高效率的一套集群设备。
再回到人工智能大模型,我们现在能看到它对处理能力,对网络通信和对IO都有非常高要求,而且远超于我们原来传统的高性能计算中的绝大多数的行业对这几个性能的要求。
所以,我们现在能见到的一些推荐的配置,像8卡的GPU服务器,节点之间又通过8个卡的400G互联,这种连接方式。同时,我觉得如果你要发挥非常好的性能,依然服务这一块是非常重要的,是必不可少的一部分。所以,我觉得生成式AI来了,它对整个HPC的架构又有了更高的要求,更深层次的要求。
【问题7】生成式AI将为高性能计算和其应用带来哪些变化?
主持人:像您说的,其实我们每一个行业它都有各自行业的特殊需求,我们也梳理出来了一个标准的部署流程,一步一步帮助它实现真正的应用,同时我们又要注重我们具体的性能层面高性能的需求。在生成式AI又融入到我们高性能计算当中之后,为我们行业企业客户在上层搭建应用上又会有哪些变化?
付鸿雁:应用确实和原来HPC的应用不太一样了,大多数是以框架为主,几个大的人工智能框架为主。原来HPC是模拟计算型的,我们先假设有一个什么样的模型,比如说我就是学飞机外形设计专业的,我们在做研究时候,我先假设一个模型,通过一些算法来去看这个模型符不符合我设计这个飞机的气动特性的要求。人工智能它其实不是这种模拟的方式,它是我们积累了大量的数据,用这些数据我们用一些算法去学习它,看能不能从这些数据里面我们找到一些共性,甚至我们挖掘一些更好的策略,智能化的一些东西出来。所以它是基于大量的数据分析,挖掘,学习到一个可能有些是我们人类大脑想不到的一些东西,或者说我们现在用模拟和计算的方式达不到的精度这个效果。所以说在应用上是有本质区别的。
【问题8】未来长江商学院在建设本地化算力基础架构上还有哪些新需求?
主持人:我想问一下王总,从长江商学院来看,我们在未来建设本地算力的基础架构上,我们还会有哪些新的一些需求?您也提到了我们除了本地算力以外,可能我们还有一些是用云的服务来提升一下我们的算力,未来这两个方面怎么来做一些结合?
王铁军:我觉得算力这个事情这么多年也是比较风水轮流转,很多时候技术和理念提得过早之后那个时代没有到,也到不了它发挥最大能量的时候。包括现在互联网,其实早年间NC提了很多年,但是那个时候的传输和计算都达不到,现在在算力这一块,早年间我们主要是各个服务器,以服务器为主的计算。后来从Google开始创造了云计算的概念,把多个性能不是那么强的服务器拼在一起,但是可以达到1+1大于2的效果,把云就做起来了,而且它有一个非常大的弹性可以去应用。
刚才吴总也讲了,我们现在也开始强调比如边缘计算,因为我们突然发现边缘资源也不能浪费,而且边缘资源也越来越强大。
从最开始智能手机开始,从智能手机的芯片开始做起,越做越强,现在你拿到的智能手机无论从存储还是计算性能,它其实不比笔记本电脑差,逐渐这些边缘化的设备,终端的设备越来越强大,这个时候我们又开始强调要云+端,边缘计算和云计算要合并在一起,要把所有算力把它应用起来,这也是一个不断发展的历程。
对于我们长江商学院,我们自己也是在跟随着这个历程,或者说在跟随着这个发展的过程当中,我们也希望向先进,向更高端去应用和发展,因为毕竟我们要给学员展示我们用的最先进最新的东西。同时,我们还要把我们这些应用经验和大家去分享。另外,我们更愿意做很多创新的尝试。
所以在新的这一块我们觉得未来,因为我们新校园也在设计当中,我们希望将来我们长江的计算中心可能会用更新更先进的一些想法和理念去用它,比如说对GPU,刚才付总讲的异构设备,以及完整性能使用的要求。刚才付总讲这一点我非常认可,这么多年用户,你不能追求,因为它是木桶理论,你不能追求某一个某几个桶边特别高,其他几个就成为瓶颈。这个在我们这么多年计算的发展过程当中,很多时候是一样的,为什么我刚才讲运算、存储和传输这三个功能我们要齐头并进,你哪个方面强,另外一个方面一弱就成为瓶颈。
这么多年比如说笔记本电脑锂电池的续航能力,一直是笔记本电脑的瓶颈,有一些总线传输速率一直是传输的瓶颈。你某一些东西发展再强,综合能力不强还是不行的,所以我们希望将来在部署的时候,我们第一要考虑到所有的综合性能是最好的。二是在这个基础之上我们愿意尝试更新更先进的东西。比如说刚才吴总讲对于散热我们也看到现在液冷,氟化液的液冷还有普通的水冷技术还是越来越发展的。
我们当年参观一个大厂,具体大厂不说了,现在很多大厂都有,它的数据中心,因为我早年间在数据中心也做过一段时间,对数据中心里面的噪音,风声,声音加上空调,大量密集的机柜,你是感觉到很喧嚣,很热闹的。但是,进到这种水冷的数据中心,你仿佛进到了一个非常安静的房间里,它放着一个个大水箱,大水箱里面密密麻麻摆满了服务器,只有那个液体在缓缓流动,把这个热量带出来,但是所有服务器这个灯还在闪烁,却都埋在这个水里面。
过去我们讲服务器与服务器之间的间隔多少,尤其你上了GPU热量更厉害,运算越厉害,热量发展更快,间隔要多少,中间要怎么做风扇,怎么去风冷,但是它那个服务器就一台贴一台贴在里面了,这个技术我觉得挺好。
还有更大规模的电路集成,大家都知道摩尔定律,我们希望服务器肯定是越来越小,设备越来越小,占的空间越来越小,因为都是在寸土寸金的地方搭建这种高性能计算中心,所以在这些地方这也是我们的一个想法。未来我们希望在综合能力的前提之上,把各种独特或者是各种新的技术能够应用到我们这里来,我们觉得这是我们自己在这个行业当中,能够储备我们自己能量的一个方式,也是能够展示给我们的学员和用于我们的教学、科研,以及我们自己大模型的分析当中。
【问题9】戴尔在算力基础设施的赋能上,能够提供哪些能力和产品?
主持人:王总提到这种需求代表了我们行业里千万企业的一个整体需求,王总还关注到我们一些新的技术,像我们的沉浸式液冷等等的一些在数据中心里面的创新技术。戴尔在算力基础设施上有很多赋能,我想问一下吴总,在戴尔的层面来看,咱们能够给企业和行业客户提供哪些能力和产品呢?
吴跃:如果是到我们今天主要讨论的AI范畴,像在AI基础架构硬件领域里,我们戴尔能提供一个端到端的完整AI数据中心所需要用到基础设施的解决方案,包括我们各类型GPU加速服务器,我们在最近几年推出新几代服务器产品家族中,特别是多款专门针对GPU设计和优化的服务器,像刚才付总谈到单机4卡,单机8卡高密度服务器,针对边缘AI计算,边缘计算的优化型服务器它的体积会更加紧凑,对像供电、散热,温度有更好的环境适应性。
在网络的连接设施上,像我们在AI,HPC计算集群里经常用到IB网络,包括我们戴尔也有自研我们叫PowerSwitch以太网通信解决方案。针对AI大家经常用到非结构化数据的存储平台,像我们PowerScale + ECS,就是我们专门针对非结构化数据设计的我们的存储平台的解决方案,它可以支持横向扩展。
现在我们单一的文件系统可以能做到180个PB的存储裸容量,而且随着节点的增加,它的性能和容量是可以按需扩展的。
而且针对GPU我们现在也支持NVIDIA最新的存储优化技术,叫GPU Direct Storage,开启GDS之后存储在我们共享存储里的数据,不像以往我们需要通过CPU进服务器的内存去进行数据预处理,可以直接加载到GPU的显存,这样可以提供更高的存储带宽和更低的存储延迟。包括针对很多我们关键数据的数据保护解决方案等等。
在整个硬件基础设施之外,我们也有很多在针对AI的软件平台的解决方案。比如在今年前段时间,在我们戴尔用户大会上,我们戴尔科技集团的COO Jeff Clarke和NVIDIA的CEO就是Jensen Huang,就是业界经常叫黄教主,我们一起联合发布了一个解决方案叫Project Helix。
针对企业级AI这个平台的软件解决方案,它上面会提供一些预训练好的模型,提供一些工程化的解决方案,包括提供一个针对这个大模型的安全护栏的机制,来保障这个大模型可以安全稳定运行。
包括在国内我们也在和很多我们国内的一些合作伙伴一起去打造我们联合的解决方案,像我们和联科已经多年合作,我们之前在HPC包括我们在AI的GPU集群管理、资源调度上,包括在高校科研、在制造有很多合作的项目,也是对于我们在AI HPC的领域里,我们实施的能力,我们觉得是一个蛮好的补充。
像刚才王老师重点谈到的液冷方案,其实之前我们就在国内的985,现在叫双一流的高校,交付过我们针对HPC液冷集群解决方案,现在针对AI GPU我们也可以提供液冷。包括我们浸没式液冷方案和整个冷板式的解决方案,我相信未来针对像现在我们今天谈到的AI,针对HPC,包括绿色数据中心,边缘计算,未来我们这种新的计算技术,我们也是在持续观察用户的需求,我们也是在不断去打磨我们的产品和解决方案,可以更好为大家提供我们的技术方案和服务。
【问题10】戴尔与合作伙伴共同为行业客户赋能的过程中有哪些案例?
主持人:刚才您提到了与合作伙伴一块赋能我们的行业客户的部分,请您帮我们讲一个具体的案例,来解读一下看看现在咱们是怎么与合作伙伴做配合的。
吴跃:比如说我们科研行业,刚才我们谈到第一个是我们在高校领域里科研的平台,二是我们高校实训平台这两块。实训平台我们过去在很多国内高校打造过这样的实训平台解决方案,在我们整个GPU算力平台上它重点在做的一个事情,比如说我们和NVIDIA合作的一个软件解决方案NVIDIA Enterprise,它里面就提供GPU的软件和硬件切割的机制,通过这个机制对于我们在教学实训平台一个非常大的帮助,原来一个GPU可能只一个学生去使用,现在我们可以让更多学生同时使用有限的GPU算力卡,同时进行我们AI课程教学实验工作。
包括在我们的高校很多研究院,包括我们很多院所科研平台,我们之前和联科,包括很多其他的一些整体解决方案的设计,帮客户去打造从几十张到上百张GPU不同规模下的集群,我们整个AI+HPC的算力集群,可以根据我们不同的老师和学生的算力需求,我们去进行资源的切割,包括资源的调度,排队的机制,让大家更好去使用到GPU的算力。
【问题11】联智科技与戴尔的合作为行业提供了哪些能力?为行业带来了怎样的积极变革?
主持人:从高性能方面联科刚才也提到了和戴尔是很好的合作伙伴关系,两者是怎么一起来为行业提供的能力,同时我们这个能力又为行业带来怎样的一个积极变革呢?
付鸿雁:大家都知道戴尔是服务器和存储的制造商,戴尔的产品我觉得在稳定性和性能上表现都还挺优异的,好多用户都比较认可,也是我认为企业级的产品之一。
联智科技做了二十多年高性能计算的软件和服务,有这样的一些经验和能力积累。现在我们和戴尔联合打造了一个HPC和人工智能大模型这样的解决方案,其实是一套完整的平台。如果用户建设一套HPC,我经常会类比成F1比赛,F1需要有一个非常好的发动机和车以外,你还需要赛车手和一个团队,戴尔的设备就相当于那台车,联智科技就相当于这个车手和它的运维团队,这样联合起来我们去打造的这个解决方案,在性能、稳定性上,以及管理和使用上都会非常优异。
这样的一个方案我觉得是可以让用户的投资收益比达到最大化,我们也交付过很多行业,有政府,过去戴尔也做过很多有政府、科研教育,制造型企业客户,很多时候都得到了用户的认可和好评。
【问题12】未来基础架构还要在哪些方面有所提升?
主持人:您把双方的合作关系形容得特别形象,最后问一下三位,从生成式AI未来还会继续发展,我们行业还会继续关注,不管我们已经在尝试,还是有些企业还在观望的状态,这个趋势肯定是未来的发展方向。从三位来看未来我们的基础架构还要做哪方面的提升?
王铁军:对于基础架构我们从用户的角度有很多想法,因为这个基础架构的提升确实对未来的发展至关重要,但是从我来讲,我想说我们的基础架构提升可能就是用几个字来形容,肯定我们希望未来的基础设施基础架构会更强大,算力更强大,而且是综合能力更强大,除了算力之外整个传输和存储能力都足够强大,这是非常重要的一点。
二是更可靠,在安全性上,在数据和内容保护传输上,这些方面一定要做得更安全,更稳定,更可靠,这是所有用户方非常重视的,你再强大,你稍微抖动一下用户也就紧张了,这个事就大了。
再一个是更弹性化,更能够根据用户的需求收放自如进行部署和实施。我觉得这是我们从用户角度来讲,用户大家老觉得我们要得很多,什么都想要,最核心的东西不外乎这样,它要够强大,够可靠,还要有足够的弹性,我觉得这就足够了,这就是我对未来包括生成式AI在我们内部和外部大规模应用过程当中,我们对所有的基础设施,不光是对戴尔或者对任何一家基础设施,对所有基础设施我们都寄予这样的一个需求和厚望,这就是我们的想法。
主持人:付总有什么未来的一些想法?
付鸿雁:人工智能也好,高性能计算也好,它其实主打的就是一个高性能,但是高性能是建立在稳定性可靠性基础之上,如果虽然你性能非常好,但是经常出故障,所以也谈不上高性能。
从高性能和稳定性这两个角度来看,主要是处理能力是非常核心的一个部件,CPU和GPU,它们之间的互联,不管是节点内部互联,以及节点之间的互联,还有数据的IO、存储、带宽和容量也都是非常大的挑战。因为人工智能大模型来了,远远超出我们原来对超算的需求了。
刚才两位老师都提到了供电问题,能耗问题和散热问题。如果你想保障它的高性能,必须有非常好的制冷条件,过去零几年时候用刀片,一个刀片里面很多台服务器,但那个时候一个机器只有八个核,十六个核的处理能力,现在一台机器就有几十个甚至几百个核,8卡的GPU有非常强的处理能力。所以,它对制冷有非常高的要求,我们现在看英特尔第四代CPU有一些特别的型号,它只要求液冷了,如果你不是液冷就达不到这样的要求。制冷在性能上,我们有见过一些客户说三年之后集群怎么明显变慢了,很可能就是它散热不好了,它机器都降频了,他自己也不知道,所以我们有新建机群已经达不到处理器应该具备的性能,它功耗上不去,标称的主频达不到,它平时就是在降频用。
所以,对刚才说的性能和稳定性,以及周边的环境保障都提出了非常高的要求。
主持人:付总从能效层面帮我们做了解读,戴尔作为基础设施提供商怎么来看未来发展趋势的呢?
吴跃:我觉得第一点肯定就是鞭策我们开发出性能更强大的计算平台,就像刚才王老师,鸿雁老师谈到的,以AI来讲,之前OpenAI做过一个研究报告,AI所消耗的计算力平均每3.43个月就会增长一倍,大家知道OpenAI因为发布了ChatGPT之后让大家都认识了它,未来这个速度可能会更快。
AI对于计算力的消耗只会未来更多。
第二,随着我们计算平台规模的逐渐扩大,未来对于我们整个算力平台的可扩展性和可管理性,我们需要重点去关注和研究的一个方向。
第三,我们认为未来对于我们的IT基础架构非常重要的一点,就是我们系统的安全性。因为现在随着像AI我们现在新兴的技术,他们可以做的这个事情越来越多,它也会变得越来越重要。当然,对它的一些安全的攻击,包括一旦出现了安全的事故所带来的一些风险,其实也是需要我们去重点关注的,包括本身我们设备的一些安全性,比如说我们现在很多戴尔设备都支持零信任安全保障机制,包括我们对于一些数据的安全性和对于我们异常攻击,比如勒索病毒安全保障机制,整个系统安全性的机制我觉得也是非常重要的,我们系统保障的一个闸门。
主持人:今天三位嘉宾讲了非常多生成式AI相关的内容,我们未来企业在应用生成式AI的过程中肯定也是把我们大模型进行沉淀,成为我们自己行业大模型,在这个基础之上我们在上层形成各种各样的应用赋能我们的行业。同时,我们在底层,我们的算力层面也要不断进行升级,真正驱动和改变我们的行业。
今天非常感谢三位嘉宾的分享,同时我们也感谢今天的场地支持,LAUNCH SPACE首发空间,谢谢大家。