数字中国建设峰会
返回
王超在第六届数字中国建设峰会人工智能分论坛上的主题演讲
阿里云智能计算集群灵骏负责人、资深技术专家
发布时间:2024-08-27 10:43 文章来源:峰会组委会秘书处

建设大规模绿色智算,护航人工智能产业可持续发展

王超

阿里云智能计算集群灵骏负责人、资深技术专家

  大家好,我在阿里巴巴负责阿里云灵骏智算集群的架构设计与研发以及集群的运营,今天我给大家带来的主题演讲是《建设超大规模绿色智算,护航人工智能产业可持续发展》。

  今天全场都在说算力,说大模型。我们作为阿里云,我们的任务是让大家怎么使用算力和怎么得到自己的大模型,这是我们最近几年一直研究的一个方向。

  一、 智能时代的算力需求趋势

  首先我们看一下算力的需求,为什么大家现在开始说算力网?开始说算力互联网这些概念?算力其实说到训练、说到大模型,首先要看一看大模型怎么样服务客户,怎么样服务我们的千行百业。

  但是,今天的大模型不管用多少的卡训练出来的,它推理的算力决定了以后只能在云端提供服务,也就是推理一定是上云的,只能在云端提供推理服务。使用你训练的预训练模型,去进行强化学习,他需要几百张卡使用一两个月来完成训练。这就造成一个问题,你不会花几个亿去买一套设备,只用几个月,这是极不经济的。

  二、 云计算为人工智能提供普惠算力

  所以,计算集群必须是一个面向服务的计算集群,它需要完成多租户的设计,完成多层次的服务,完成高效的数据流通以及纵深弹性和所有的AI训练。今天所有人都是在容器里进行训练的,已经没有虚拟机的概念,也没有物理机的概念,全部的任务都是基于云原生K8S这个环境。要从数据的存储、计算和网络的隔离重新开始设计整个计算集群,要忘记以前基于虚拟机计算隔离的办法,重新做一套基于容器的计算隔离办法,基于容器网络重新做网络隔离的办法,然后把整个集群从设计理念上就能做到基于云原生、基于容器技术的安全隔离,来满足多租户的使用场景。

  随着计算任务量越大,花在存储Check point上的时间越长,然后你花的计算时间越少。这些事情都要去研究,要提高效率,效率和容灾可能是在整个云计算让大家应用时候的一个最重要的点。

  必须要有PaaS底座,因为最终不是所有的企业都会去做大模型的,他们一定要在一个PaaS化、MaaS化的模型服务的平台上去提交自己的数据集,去获取自己的专属模型。大模型会驱动云计算从IaaS化服务走向PaaS化服务,走向Server less化服务,走向模型化服务,这是一个不可逆转的趋势。

  还有一个就是数据流动,我觉得大部分企业不要去考虑训练的任务,企业要考虑的是数据在哪里,拿来清洗、拿来训练的数据有没有做好收集和标注。云上要做什么?要做好不同存储场景的连通以及数据的流转,分层次地处理数据,算法工程师不需要去考虑什么叫冷存储,什么叫温存储,什么叫热存储,他只需要知道他使用这个数据的时候,这个数据在哪里,并且性能足够让他满意。

  三、 技术驱动,打造云上超大规模智算集群

  但实际上,我们最重要的在系统内是要解决网络互连的问题,网络的本质就是满足带宽、延时和流量调度,本质就是做这三件事——大带宽、低延时和流量调度,但是同时满足非常艰难。

  云的环境下有很多存储的产品,企业级的存储也有很多,冷存储、温存储、热存储、高性能存储,但是一个算法工程师,你会去关心这些存储的特性吗?我是做算法的,我不是一个IT专家。整个数据的调度是由计算系统的PaaS平台来完成的,合理的使用云上低成本的OSS和高性能的CPFS来保证运行时存储的性能和成本的合理匹配,才是云上存储的设计核心。可观测系统是为了做调度的,整个集群的调度系统要做到一个亲和性调度的设计,要感知每一个计算节点GPU的利用率、网络流量的分布情况、存储的分布和使用情况,以及感知整个集群各个节点的电力使用情况、故障节点的使用情况、资源的分布拓扑,来完成一个最佳的任务调度算法。

  我们希望构建了一个从计算集群到PaaS到MaaS全栈式的服务,来满足千行百业在各个垂类场景中的蓬勃发展。我们也提供了魔达社区,汇集了几百种开源的模型以及我们提供的模型,开发者可以在训练平台中随意地调取任何一个模型直接部署你的训练任务,一站式完成。

  四、践行绿色、可持续发展

  说了很多云上的集群,绿色环保低碳的逻辑就是使用绿电降低POE,我的电很清洁,我们的建筑材料很清洁、很环保,就低碳了。我们的逻辑是说,云上的多租户服务才是最大的绿色环保,为什么?就和公共交通共享经济一样,只有资源使用率得到了提高,才是真正的环保。不管这个东西多环保,你买回去不用就一点都不环保。

  但是光线传输数据的理论极限非常高,只要我们能把东部的数据廉价地传输到西部,我们自然可以解决能源消耗的问题。我们会使用一些液冷技术、任务调度技术、峰值算法的技术,来降低服务器和本身散热的功耗,来满足我们绿色节能本质上的问题。

  我今天的演讲到此结束,谢谢大家。

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面

附件下载