数字中国建设峰会
返回
刘挺在第六届数字中国建设峰会数字技术创新与安全分论坛上的主题演讲
哈尔滨工业大学校长助理
发布时间:2024-08-06 10:23 文章来源:峰会组委会秘书处
大模型时代的自然语言处理
刘挺
哈尔滨工业大学校长助理

尊敬的各位嘉宾,我的演讲题目是《大模型时代的自然语言处理》。什么叫自然语言?实际上就是人类语言。在计算机界我们有重新设置语言,我们搞一个类语言处理加工的研究者称人类语言为自然语言,自然语言处理是认知智能最重要的组成部分。

现在ChatGPT正是人工智能下的自然语言处理这个方向。哈工大在这个方向上从20世纪70年代末就开始研究,我们梳理了一下自然语言处理的发展有五个范式,从小规模的专家知识到浅层的机器学习,到深度学习,到预训练模型,到ChatGPT,确实是呈现一种数据的更新换代的趋势。

ChatGPT最核心的技术和以往不同,模型比较大,产生了有限的效益。另外就是用ICT学习还有人类反馈的强化学习,这是最主要的几个技术手段。可以看到,我说的ChatGPT3出现的问题在ChatGPT4已经有比较好的回答了。一天我开了个玩笑,想来想去现在只有一种职业不受ChatGPT的威胁,就是无业游民,它竟然能理解出来我这句话带有讽刺的意味,这是我们自然语言处理上升到了语意层的一种表现,规模越来越大产生的“涌现”。

有的人说要建一个行业的小模型是不是就不需要那么大的数据,但是我们的回答是你要想具有很足够的语言表达能力,你需要一个大模型做基座,这个大模型要产生“涌现”的现象大概是需要22B这样的参数才可以。

我们理解大模型实际上是从关系数据库结构化的数据表达,到互联网非结构化的,到用参数的形式,去表达整个互联网的知识,这是知识表达和调用方式的一种进步。现在调用方式是从搜索你的关键词到了自然语言的表达。现在有点儿像当年搞汉字输入法的时候是万马奔腾,现在是一个百模大战,百模可能都不止了。哈工大最近也要发布自己的模型,包括各种行业的模型。

哈工大提出了事理图谱的概念,知识图谱以离子为核心,事理图谱以事件为核心,描述了事件之间的逻辑关系,这个就有推理上的进步了,会有最大模型的一个重要的一个因素。我们就是从海量的事件当中自动抽出来这种因果关系。像这个演示系统大家可以去推测,你输入一个事件可以告诉你这个事件发生可能会导致什么事件,以及这个事件的发生由哪些事件产生的。这是事理图谱的发展。

大模型的应用需要完成定制化、隐私化,像我们政府部门、央企都是需要私有化的部署,需要安全性、个性化、角色化等,这是在应用当中将面临的挑战。我们展望未来,很有可能是在没有那么大的大模型基础上,在上面进行行业数据私有化的研发,去支撑特定的政企应用,这可能是在处理领域更为重要的前景。

自然语言处理由于大模型的出现推进到了从推理的到运用的崭新的阶段, ChatGPT将在内容的安全方面、认知的对抗方面发挥非常重要的作用。

这是我得一个总结,谢谢大家!

(以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面

附件下载