全球大数据发展现状 与体育领域应用前瞻
北京大数据研究院副院长、首席战略官,北京航空航天大学计算机数学交叉中心高级研究员
蔡红宇
各位嘉宾、各位来宾,大家好!我今天的演讲主题是:全球大数据发展现状与体育领域的应用前瞻。这个演讲分三个部分,第一个部分是全球大数据现状及相关学术基础,第二部分是大数据平台的构建与应用,第三部分是大数据在体育领域的应用前瞻。
一、全球大数据发展现状及相关学术基础
讲到大数据、数据和数字化,数据挖掘大约起始在20世纪80年代。随着数据库技术的发展,数据不断地积累,常规的查询和统计是无法满足商业需求的。1998年大数据作为专用名词出现在《Science》杂志。2010年,美国信息技术顾问委员会发布了“规划数字化未来”的报告,大数据开始受到理论界的关注。社会正沿着信息化、数字化、智能化的方向发展。数字化是以数字、数据建立起和物理世界相对应的数据模型过程,换言之,数据即万物。
大数据的发展现状,目前是美欧领先、中国增长强劲。市场调研机构发布的报告显示,2020年全球数据要素市场规模达到2850亿元,2021年达到3000亿美元,2022年达到3200亿美元,据此测算,2025年将超过4000亿美元。这个数据市场是一个比较主要的指标。另一个指标叫做自然指数,是涉及了145种自然科学和健康科学的顶尖高质量期刊,主要包括了目前比较先进的学科。在自然指数方面,中美领先,群雄并起。2023年的数据,中国的自然指数已经到了23171.84,美国大约是20292.72,中国在2023年的自然指数实际上已经略微超过了美国。下面第二梯队,比如说德国也好,英国也好,德国是4000多,英国是3000多,日本不到3000,法国是2000多,再往后的国家基本上是1000多。中美是领先了第二梯队4、5倍,甚至6倍,基本上是这么一个差距。
国内外与数据相关的政策法规。像中国陆续出台了《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,国务院也发布了《“十四五”数字经济发展规划》,大约在2022年12月2日,中共中央、国务院发布《关于构建数字基础制度更好发挥数据要素作用的意见》,这就是我们通常讲的“数据20条”,是在数据方面很基础的一个法规。比较大的规划有《数字中国建设整体布局的规划》。美国发布法案比我们略微早一点,比如说《数字隐私和数据保护法案》,相当于我们的《中华人民共和国个人信息保护法》,美国还发布了《联邦数据战略与2020年行动计划》《开放政府数据法案》,我国的开放数据法案我相信很快会展开。
大数据是物理世界到数字世界的映射,是通过获取、存储、分析从大容量数据中挖掘价值的全新技术,大数据作为一种新的生产要素已被人们普遍认可。数据科学是一种学科,是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域,或者叫跨领域学科也可以。
数学实际上是研究现实世界中数量关系和空间形式的,简单地说是研究数和形的科学。这是当代数学大师吴文俊给的一个概念,吴文俊是我们国家人工智能最早的先行者,他在数学方面的名气也很大,基本上跟华罗庚、钱学森齐名的。古希腊有一个学者,叫毕达哥拉斯,曾提出了“万物即数”。
因此大数据、数据科学与数学三者间的关系如下:大数据是数据科学的研究对象,数据科学是一门以数学和计算机为主的交叉学科;算法是大数据分析和处理的核心,算法的优劣取决于数学。大数据的字面含义是指海量的数据,它的特点是“4V”:容量大(Volume)、多样性(Variety)、价值高(Value)和速度快(Velocity)。
数学是数据科学的重要基础,所有的计算和算法都离不开数学的方法与理论,例如微积分、线性代数、概率统计、数论等等。
二、大数据平台的构建与尖端应用
讲到应用肯定要讲成功的应用。北京大学人工智能学院的院长给过一个公式:y=a1×1+a2×2+…+an×n
其中最重要的因素是时代地域,这个说明什么呢?我们身处于划时代的时代。这个时代非常重要,以前经历过信息化时代、电气化时代,现在实际上是叫数据化时代、数字化时代或者叫人工智能时代。这个时代不敢说是百年未有之大变局,但最起码是三五十年大变局的时代。我们身处的时代具备了最重要的成功要素,包括基因、数据支持等。下面我介绍比较新的概念,叫做AI for Science,这是我们研究院的院长提出来的,他认为人工智能与基础科学深度融合是大数据和AI应用的“新曙光”。传统的科研团队基本是各自为战,一个导师带若干个博士,下面可能还有硕士,是一个小作坊的模式,师傅带着徒弟干着一件事。比如说搞材料的,像这样一个团队带着科研小组,一般会有一个材料方面的研究员,还会有一个搞计算的,从第一性到力场模型、到分子动力学计算等有不同的链条。这样的成本或者代价是比较高的,小组中要有五六个高级的人,才能把现在比较前端的研究做出一个成果。这种模式效率低下。我举两个例子。爱迪生有一个团队,早年做灯丝,他试验了上千种甚至上万种材料,什么竹纤维、棉纤维,直到后面用的钨丝,要以现在的眼光来看,一个一个地试效率是非常低的。还有一个国内的例子是屠呦呦发现青蒿素,她大概从20世纪50年代一直干到八九十年代,几十年几十人的团队,国家也投入不少钱,他们把所有的材料、各种中草药都试了一遍。当前的科学界的科研团队存在大量的高投入,产出相对少甚至没有产出的现象。所以AI for Science的意义,我会更加详细地介绍。
大数据平台给传统行业的赋能,一个是金融大数据平台,主要围绕证券数据、保险数据,对中国金融领域的研究,这方面拥有多项国际国内领先的核心技术和科技成果。数据来源有央行的数据,也有企业的外部数据,包括车辆信息、乘用车信息。为什么举这个例子?这其实跟体育是相近的,体育的覆盖面也非常大,包括政府的数据、企业的数据、个人的数据、装备的数据,大致的流程和阶段非常近似的。
另外给出了一个数据是物流大数据,通过海量的物流数据,覆盖物流的几个主要环节,运输、仓储、搬运、流通、加工,其中最重要的就是做到有效的车货匹配。它和体育方面和运动员和比赛的过程也比较相像,从这些平台里边,我们体育行业也可以得到很多借鉴。为什么这么说运动员和参与的运动也是一个匹配的过程?在不同的年龄段是在不同的运动阶段,不同年龄段可能会从事不同的运动。比如他15岁以下的时候适合做体操,也许到了15岁到20岁之间,拿体操的金牌可能有一定的困难了,因为人也长个了,体重也增加了,他可能更适合做自由滑雪等等。
三、大数据在体育领域的应用前瞻
大数据在体育领域的应用,小标题叫数据融合。前一节讲到“万物即数”,任何一个事物、世间所有的东西都可以用数来表达。它的原文讲的是有理数表达,就是“万物即数”。我们现在对一个比较完美的人的形容,是拥有有趣的灵魂和强健的体魄。我稍微修改了一下,你要先拥有强健的体魄,才能承载有趣的灵魂。
这说明在体育领域,包含了健康的成分,它占了十分重要的地位和比重,由此产生的数据和数据融合,怎么强调和重视也不过分。因为你没有强健的体魄,有灵魂也没有用。接下来,我提出来一个稍微新的概念。就是AI for Sport,这也是借鉴AI for Science这个概念。在大数据应用中,体育和科研有非常大的相似度,从前面讲的内容引下来,尤其是竞技体育和科研成果的首发。科研成果全球各国大家都在做,因为数学的相似性原理,可能同一个专题,各地很多的团队都在做,成果首发只有一个,谁先发出来就是谁的,第二个发出来的从学术地位和科研价值来说都没有那么高。体育也一样,金牌只有一块,体育可能比科研还稍微好一点,后面还有银牌、铜牌,科研界则没有铜牌一说。AI for Sport是把人工和体育融合,借鉴了AI for Science的成功模式。我们在体育的研究,无论是个人也好,团队也好,体育产业也好,都要用AI来优化提升它。大数据和AI也是数字化在体育领域的应用,应用的成功决定性因素大概有四个方面。第一是理念上的更新,我们理念现在提升了,不能就事论事,否则看不到体育背后的东西。“万物即数”“数据×”“数据的新质生产力”,这些概念的出现就说明我们理念已经提升了。第二是战略的提升。比如国际上有奥林匹克AI议程,中国肯定也不会在这个议程之外。我们的“十四五”规划、“数据二十条”,从政策和战略上作出了保障。第三是模式上的改变,打破了传统的师傅带徒弟和小作坊模式。不是说这个模式不好,主要是从全局上看,师傅带徒弟这个模式投入大、效率低。通过创新,我们会在模式上做一些改变。第四是技术上的丰富,大数据、人工智能、可穿戴设备、运动生物学、运动医学……技术方面我们今天讲一天都讲不完,这些方面会有一些新的提升。
大数据平台的体育应用场景构想。传统的经验性运动训练,是冠军选手退役后用自身经验培养下一代冠军选手。这是信息化以前的比较传统的,目前的科学化运动训练,科研团队可以用监测数据保障运动训练过程,包括训练量和训练强度的调整。相当处于信息化的阶段,我们未来的构想是在未来大数据平台支持下进行智能训练,在众多选手、大量数据的基础上,形成共性或个性化训练模型、智能化指导方案,有助于进一步提高训练的自主性、科学性和有效性。
大数据技术的创新应用,有助于形成体育领域的新质生产力,其作用不仅体现在运动训练方面,在全民健身、体育产业、体育文化包括竞技体育等七八个方向上,每个方面都有可替代的前景。
最后,体育发展应该有如下趋势:全民健身会从个人向全民的方向提升,竞技体育将来会是市场+举国体制,青少年体育是从娃娃到成才,体育产业是从粗放到优质,体育科教是从模糊到精准,体育文化从普通到繁荣,体育外交从中国走向世界,体育法治从不太完善发展到健全。谢谢大家!
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面