日前,在2025中国国际大数据产业博览会“高质量数据集主题交流活动”上,《高质量数据集建设指引》(以下简称《建设指引》)正式发布。数据显示,我国已建设高质量数据集超3.5万个、总量超400PB。
《建设指引》指出,随着大模型技术应用的快速发展,人工智能的研发重点正从“重点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的作用日益凸显。数据作为人工智能发展的三大核心要素之一,已成为人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动“人工智能+”场景落地具有重要意义。
2024年12月,国家发展改革委、国家数据局等部门印发《关于促进数据产业高质量发展的指导意见》,首次明确提出“高质量数据集”概念,将其作为人工智能与实体经济融合的核心载体。随后一系列政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》《国家数据基础设施建设指引》等政策均提出建设行业“高质量数据集”。
在政策指引下,我国高质量数据集建设成效明显。《建设指引》中发布的数据显示,截至2025年6月,全国建设高质量数据集超3.5万个、总量超400PB;数据交易机构挂牌高质量数据集3364个,作为交易流通中的关键商品,累计交易额近40亿元,规模达246PB;国内多数模型训练使用中文数据占比达到60%~80%。
国家数据局统筹建设数据标注基地,在生态构建、能力提升和场景应用等方面先行先试,集聚龙头企业,促进区域人工智能产业生态发展,目前已建设行业高质量数据集524个,数据总规模超过29PB,赋能163个国产人工智能大模型的研发与应用,带动数据标注行业相关产值超过83亿元。与此同时,中央企业、大模型技术企业、标准化组织、科研学术机构等多方主体正协同共建行业生态体系,形成了多元联动的发展格局。
《建设指引》指出,虽然我国高质量数据集建设在国家统筹、推进模式和应用场景方面具有独特优势,但在数据开放度、标准体系、关键技术及国际影响力等方面仍有短板,在数据供给、技术工具、标准规范、安全合规、商业模式等方面还面临许多困难与挑战。
《建设指引》指出,要以体系化思维优化高质量数据集建设布局,以设施化手段促进高质量数据集流通利用,以生态化环境保障高质量数据集可持续发展,构建覆盖全流程、贯通各环节的高质量数据集格局。要针对智能化需求,搭建行业知识索引框架;锚定智能场景,绘制行业数据集资源地图;围绕高质量数据集建设运营环节,构建全链条、全行业标准体系。
与此同时,要通过构建“平台+数据集+模型”的一体化服务设施,降低数据集应用门槛,推动数据集市场化流通和规模化应用。通过制度创新、产业协同和人才培育,构建多方共赢的生态体系,着力突破建设成本高、共享意愿低、创新动能弱等瓶颈。(苏德悦)
扫一扫在手机上查看当前页面