尊敬的各位领导、各位来宾,非常荣幸今天能够有这个机会在这里介绍我们上海人工智能实验室在AI For Science方面的一些探索。
上海人工智能实验室实际上是以人工智能作为我们的核心来进行科研的一个新型科研机构,在人工智能这个方向上,我们有浦源OpenXLab开源平台,在这个开源平台我们最近也开源了大模型,包括语言的大模型、视觉的大模型,我们视觉大模型里头的IntenImage2.0目前在视觉的几十个任务里头都是世界最好的结果,而且超过了像谷歌Meta等相关的这些企业或者是顶尖的实验机构。在语言这样一个大模型里头,我们和复旦大学一起开发了moss模型,并且我们最近也将这样一个语言大模型源代码已经开源到了网上,如果大家感兴趣可以来试试我们的代码。
在欧美以及中国已经看到了相关AI For Science领域的重要性,不只是在学界、在研究界,实际上在很多相应的公司已经开展了相应的布局,包括美国的谷歌,包括中国像华为、腾讯等公司,都已经在开展这方面的研究。所以这方面不只是有顶天的科研要求,也有立地的实际需求。
在自然科学界,如果你想要得到一个药物分子,你就需要非常多的尝试,这是说我们少样本背后的原因。如果说我们样本少,另外一方面我们要得到它的标注就更加困难了,你想知道这个药物在人身上的作用是什么,通常你要经过小鼠、大鼠、猴子最后再到人的试验,这个试验的过程可能到几年都需要。这对人工智能说是数据、算法、算力,数据这块的缺失和缺乏的问题。
另外一方面,自然科学AI For Science也有它本身一些独特的性质,比如说进入的门槛会比较高,你需要有很多时间和精力去了解相关自然科学的知识,这样的话才可以跟科学家去进行交流。
在实验室我们想要探究的是从微观到宏观的人工智能共性算法研究,这是因为我们看到从微观的原子级别的自然科学领域中到宏观的宇宙天文的这样一个科学中,它们其实本身都是有共性的。比如天体物理学的粒子研究,实际上是用到的非常微观的原子里面的一些量子力学理论来帮助支撑、理解的天文现象。所以如果本身的自然科学之间是有共性,那么我们可以利用人工智能的方法把它们共性的问题,这是我们的希望。
具体而言,由于世界是由原子组成,首先在原子这样一个微观领域里头,实验室想要去通过模拟原子和原子之间的受力,通过计算去帮助我们了解这样一些原子之间的特性,从而帮助加速材料设计等等相关的工作。我们看到这个工作,实际上有非常好的科研、社会和经济价值。
我们在原来的过程中使用的是传统的方法,是用物理的方法去知道受力,这样的话我们的精度高了,速度就不够快,模拟不了非常大体系下的原子。如果我们想模拟大体系的结构,我们的精度又不够。如何去实现精度和速度之间的均衡,可以采用的方式就是利用人工智能的方法达到高精度的同时也能够达到高速的需求。
让我们把视角再扩大一点,到与生命相关的DNA、RNA、蛋白这个领域,实验室正在跟领域的顶级科学家,比如说像诺贝尔奖的获得者,并且与上交、复旦等高校一起合作来设计人工智能的方法去赋能,从基础科学到应用全链条药物研发。
另外,也把它用到了RNA的三维结构预测中,结果能够显著地降低三维结构预测的误差,误差从17.3降低到只有3.5,大概降低5倍。同时发现,我们的方法经过预训练以后也有很好的泛化能力,在跨物种验证中,方法也有很好的效果。
我们再把视野放到更宽的领域,就是地球科学。在地球科学方面,我们主要关注的是大气和海洋的模拟。大气和海洋之间的相互作用深刻地影响着我们地球的气象、气候,以及整个生态系统。
如果说我们刚才说到的是观测,那预测方面呢?实际上在预测方面中国很早就有相应的一些政府级的机构。这个机构叫钦天监。他们怎么知道明天会刮什么样的风呢?当时用的是占卜和观天象。我们可以看到,在古代的时候我们去进行气象预测,用到的可能是天象、占卜或者是人民经验的总结。到了现代这样一个时代,我们就开始使用物理模型对我们的气象去进行预测了。
其实早在20世纪初的时候,来自美国和挪威的科学家就开始去尝试利用物理模型去推测整个气象未来的预报。但是我们看到100多年以后,实际上我们现在的气象预报已经成为大家每天都在用的、关系我们民生的一个重要的问题,每过10年,我们对气象预报的准确率就能够提高1天。
由于气象预报的重要性,实际上在中国和国外的高校、科研机构,都已经有非常多地在这方面的探索。具体到实验室的话,我们在气候和气象方面做了一些相关的研究,首次提出了能够将印度洋和太平洋之间气候影响的关系有效地做到7个月以前。
另外一个与实验室相关的工作就是我们做的全球中期气象预报的模型,也就是风乌模型。风乌这个名字的来历就是我们刚才介绍的“相风铜乌”,来自中国古代智慧的测风设备。全球中期气象预报的任务是什么呢?我们想要知道全球所有气象要素在未来14天会发生什么样的变化,通常通过今天的气象要素,包括温度、湿度、风速等相关的信息,帮助我们去预测到未来14天的情况。
在这样一个问题中,我们提出来的模型主要有以下两个创新点。第一个是,原来大家就是统一的把这些数据就喂到深度模型里头,喂到机器学习模型里头,认为它能够把这件事做好。
另外一方面还会有一个误差累积的问题,当用今天的结果预测明天的结果的时候,已经有了一定的误差,我们设计了一个叫做缓存回放的策略,帮助把这样一个误差的累积缩小,特别是在长时间的时候,我们的结果会好。
同时利用人工智能的方法只需要一张GPU,就可以在一分钟以内生成未来14天的全球的高精度、高分辨率的气象预报的结果,在高效上也能达到很好的效果的。相应的方法也得到了国内外的媒体以及学者的关注。最近接到亚马逊的邀请,给他们做一个相关的报告。
在实验室我们设计了一个能够得到一个准确三维暗物质预测结果的方法,并且能够得到密度。总结而言,目前的话AI for Science已经在各个领域受到了人工智能以及自然科学研究者的重视,也产生了很大的影响,未来可以期待将会在更广泛的领域为自然科学带来更深刻的影响。但是在AI for Science的发展未来仍然需要产学研,并且需要政府的支持,让中国在AI for Science的顶天和立地的两个方面都能够做到世界的领先,谢谢大家。
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面