助你夺冠一臂之力!2021数字中国创新大赛·大数据赛道赛题深度解析
创新大赛
2021数字中国创新大赛·大数据赛道比赛正如火如荼地开展着,至今已吸引近2200余人报名、2100余支队伍参赛,总提交数量接近3300次,社群互动近20000条,受到了行业内外的广泛关注。
为助力选手们一举夺冠,本届赛题单位为选手们带来了赛题深度解析,从问题价值、解决意义、赛题重点难点多方面展开详细讲解,一起来看看吧!
AI+RPA
助力金融科技创新
一、问题价值
机器人流程自动化(Robotic Process Automation, RPA)是用计算机程序模拟人工在电脑上的鼠标和键盘操作,以一定的步骤顺序操作应用程序和web的前端界面。在办公场景中多用于将大量重复操作、有固定规则的业务流程自动化。超自动化(Hyperautomation)则是一个涵盖机器人流程自动化、人工智能、智能工作流等数字化技术的结合体。超自动化将机器人的能力提升到了一个新高度,使其能够完成越来越多的知识型任务,处理结构化与非结构化数据,推动更加广阔的应用场景,实现更加友好的人机互动。
二、解决意义
RPA的实施可以让企业打通散落在内部的各个数据孤岛,大大缩短传统IT项目的实施周期。同时可以帮助企业将员工从大量重复繁琐的工作中解放出来且投入到更有价值的工作中去。AI技术的应用又会大大拓宽RPA的实施范围,帮助企业将人工流程向自动化转型。
三、赛题重点难点
01、企业要能对内部的流程进行大范围的梳理,将那些投入产出比高的流程筛选出来并做自动化。
02、RPA由于自身的非侵入性特点,需要额外重视运行的稳定性,否则会导致运维成本高企。
03、现有AI技术还不完善,导致很多流程的自动化效果并不令人满意。如何在现有AI的技术水平下更好地结合RPA技术给企业带来最好的自动化体验也是一大挑战。
智能安全
基于车联网大数据的碰撞识别
一、问题价值
随着汽车市场逐渐朝着智能化、网联化和信息化迅猛发展,基于车联网大数据的智能识别能力是汽车企业的核心能力。通过智能识别探索车联网数据将来的用途,开发汽车新的零售产品和服务,提升汽车企业的核心竞争力。
二、解决意义
基于车联网大数据的碰撞识别可以使汽车企业及时获取用户车辆使用安全情况,以便主机厂及时开展用户关怀、经销商获取售后资源。本赛题基于上汽通用五菱提供的新能源汽车运行数据、碰撞标注和碰撞时间,希望参赛者综合运用机器学习/深度学习等技术,实现根据车辆运行数据即可识别车辆发生碰撞的可能,及时发现用户碰撞情况。
三、赛题重点难点
上汽通用五菱采集车辆信号2445个(比如车速、加速踏板位置、制动踏板状态等),每台车每2秒产生一组数据,而且用户路况信息和使用偏好千人千面,很难找到一种在海量数据中准确识别车辆碰撞的方法。另外碰撞只是一瞬间的事件,单单从碰撞瞬间去识别碰撞情况基本不可能实现,只能通过碰撞前后用户的行为关联去识别碰撞,预测碰撞的时间。
智能医疗决策
病理“金数据”赋能医学诊断
一、问题价值
福建医科大学孟超肝胆医院东南肝胆健康大数据研究所,是福建省内唯一一家在院内的独立研发团队,目前已形成肝病和肝癌大数据平台、孟超肝病外脑等一系列初步应用。其中,肝病和肝癌大数据平台汇聚了全国多中心、高质量的肝病和肝癌数据资源。该平台2019年为首届数字中国创新大赛提供了“大数据肝癌影像辅助诊断”赛题和数据,今年再一次为大数据赛道提供“智能医疗决策,病理‘金数据’赋能医学诊断”赛题和2150例数据。
本赛题源自孟超肝胆医院病理科医生的实际需求。病理报告作为诊断肝癌的金标准,是临床医生进行肝癌分期、分型的重要依据,也是重要的科研数据。目前病理报告基本都是以非结构化的文本描述存储,由于涉及多概念、多关系、多属性,需要非常专业的医学知识才能解读,导致目前NLP在病理文本中的应用效果不佳,医生还是只能人工检索数据,存在费时、费力、难以检索到关键信息等痛点,影响工作效率。
二、解决意义
NLP在病理文本领域的使用效果不佳,一个关键的问题就是命名实体识别不准确,因此,本赛题就是针对NLP领域基础任务——命名实体识别(NER)在病理文本中的应用。命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务,是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度,决定了下游任务的效果,是NLP中非常重要的一个基础问题。因此,本赛题希望参赛队伍利用先进的算法技术,结合病理医学相关业务知识,对肿瘤位置(Tloc)、肿瘤组织学类型(This)、分化程度(Tdiff)、肿瘤数量(Tnum)、肿瘤大小(Tsize)、微血管癌栓(MVI)等10个命名实体进行精准识别,帮助医生提升工作效率。
三、赛题重点难点
01、现有赛题中的数据仅来自医院,需要在小规模样本量下进行命名实体识别。
02、部分训练数据需要参赛选手自己标注。这需要选手查阅相关医学资料,或者团队具有医学背景知识的成员。
03、需对10个命名实体类型进行识别,覆盖范围广,不同实体量级差异大,个别实体涵盖的数量较少,比如包膜,在参考样例里没有涉及到该实体。
04、由于医生工作经验和个人习惯的差异,同一个实体的同一种描述也不尽相同,个别实体高达二十几种描述方式,进一步加大了分析、识别的难度。
智慧海洋建设
AI轨迹预测保护海洋活动安全
一、问题价值
随着我国海上运输业及海洋经济的迅速发展,海上作业船只数量及进出港口的船舶数量也加剧增长,无疑会增加海上事故的发生概率。当海上事故发生时,如何开展有效的搜救,减小溢油污染范围,最大限度降低人民的生命财产损失是极具现实意义的研究课题。
二、解决意义
开展海上漂移物轨迹预测是开展搜救和采取应对措施的必要条件,可以有效节约搜救成本,提高搜救成功概率。此外海上目标物漂移预测在治理海漂垃圾、赤潮漂移等方面也大有可为。
三、赛题重点难点
赛题的重点在于对目标物漂移物移动速度和方向的估算,这也是赛题的难点。
影响漂移轨迹的主要因素是海面风和海流,由于预报风场和流场在不同海域和不同天气系统下存在偏差,而且空间分辨率不足,因此得到准确的风和海流比较困难。需要根据已有的实测漂移轨迹,分析风和海流在漂移过程中的作用,掌握漂移误差来源及变化规律,实现在漂移预测中减小误差的目的。
“快递进村、快递进厂”
推动乡村振兴,服务经济高质量发展
一、问题价值
2020年全国快递业务量突破833.6亿件,彰显了快递作为朝阳产业的蓬勃活力,但全国快递业务仍主要集中在城市,存在城乡发展、东中西部发展不平衡问题。为平衡快递行业发展,国家邮政局启动“快递进村”及“快递进厂”工程,一方面让快递成为国家实施乡村振兴战略的重要抓手,巩固深化脱贫攻坚成果,有效畅通农产品进城和工业品下乡微循环。另一方面,通过“快递+制造业”模式实现仓管配送环节的深入对接,为企业提供专业化、个性化、定制化的优质服务,促进企业转型升级,深度融入和服务地方经济发展。随着“快递进村”和“快递进厂”工程的不断推进与实践,还有诸多问题亟待解决。
二、解决意义
针对“快递进村”及“快递进厂”工程中遇到的问题提出创新解决方案,分析 “快递进村”工程对工业品下乡、农村线上消费、农村产业发展做出的贡献,预测未来“快递进村”及“快递进厂”工程对农村快递量和农村消费、经济发展情况以及制造业转型升级的影响,将有效的具象化快递行业作为国家战略性基础设施和社会组织系统之一的重要性和价值,形成对未来快递行业发展前景的合理描绘与评估,对行业发展具有极大的指导意义。
三、赛题重点难点
01、目前“快递进村”和“快递进厂”工程推进中均存在非结构化的快递地址难以精准识别和分类、快递揽收量和投递量口径不一致且难以统计的问题。基于大数据思维及算法,设计或构想出一种自动统计算法和思路,有效提高行业统计效率。
02、农村快递市场发展存在“投递和揽收不平衡,农村末端网点盈利难”、“农村服务范围较大,配送成本高”、“农村地区快递揽收量旺季淡季差异大,淡季运力浪费、旺季运力不足”等问题,严重阻碍农村快递市场发展。针对农村快递发展过程中存在的问题,提出合理有效的解决方案和创新思路,将积极促进农村快递发展和乡村振兴。
03、“快递进厂”工程中入厂物流、仓配一体化、订单末端配送、区域性供应链服务、嵌入式电子商务等模式缺乏典型路径。如何提出有效的指南和具体落地路径,将对参赛者提出了较高的要求。
四、如何答题
结合各维度统计数据和快递业务量数据,分析当前“快递进村”工程对工业品下乡、农村线上消费、农村产业发展做出的贡献。
预测未来“快递进村”及“快递进厂”工程对农村快递量和农村消费、经济发展情况以及制造业转型升级的影响。
针对“快递进村”和“快递进厂”工程推进中遇到的问题提出综合有效的部分或整体解决方案。
两大工程可择一或全部作答。
大赛竞争愈发激烈,希望以上赛题解析能够帮助参赛选手 勇攀高峰、再创佳绩!
大赛官网将持续接受选手报名
你,敢来挑战吗?