2022年9至2023年1月,由国家自然科学基金委员会指导,国家自然科学基金委员会工程与材料科学部、国家自然科学基金委员会信息科学部、中国电子学会主办,清华大学、北京航空航天大学等单位联合主办的世界机器人大赛(World Robot Contest,如图1)举行了“共融机器人挑战赛”,并于近日公布了获奖结果和颁发了获奖证书。
图1 2022世界机器人大赛
世界机器人大赛(World Robot Contest)自2015年起已成功举办了7届,共吸引了全球20余个国家近20万名选手参赛,已发展成为国内外影响广泛的机器人领域官方专业赛事,被各大主流媒体广泛赞誉为机器人界的“奥林匹克”。
“共融机器人挑战赛”在国家自然科学基金委员会“共融机器人基础理论与关键技术研究”重大研究计划指导下,围绕人-机-环境共融的机器人基础理论和设计方法,通过机械、信息、力学和医学等多学科交叉竞赛内容,推动科研团队在刚-柔-软耦合柔顺结构设计与动力学、多模态环境感知与人体互适应协作、群体智能与分布式机器人操作系统、人-机-环境多模态感知与自然交互等方面进行创新性研究,并为该领域的科研技术人员打造一个同场竞技、共同交流及展示的全新平台。
本次竞赛以“人-机-环境共融”为主题,旨在探索如何有效结合语音信息与视觉信息及面部肌电信息来实现鲁棒的语音识别,以期促进语音识别技术的发展,并期望为当下的语音识别领域提供新思路与新方法。其中任务二为基于视觉模态的句子级无声语音识别,该任务的目标是根据视频中说话人的面部动作信息,来分析和识别出对应的说话内容(如图2所示),其目的是为了模拟真实场景下,通常难以保证待识别内容一定包含在训练集中的情况,以评测基于视觉模态的语音识别模型的鲁棒性。任务三为基于面部肌电的句子级语音识别,面向养老助残应用场景的无声语音交互,根据老人年及患有特殊发音疾病病患的日常生活辅助需求和紧急场景(如突然失声)的交互辅助需求,要求参赛团队据此应用场景和数据集设计算法解决该场景下语音交互问题,通过指令识别测试验证无声语音识别技术在实际应用中跨被试识别的有效性、实用性及适应性。
图2 基于视觉模态的句子级无声语音识别演示动画
经过3个多月的激烈角逐,由中国科学技术大学自动化系於俊老师带领的中国科大参赛团队(以下简称USTC-IAT-United团队)取得了优异成绩,在两个任务中均斩获冠军(图3和图4,对应的竞赛网址:https://fc.osredm.com/competitions/56plot/home)。团队工作由於俊老师指导研究生谢国辰、贺鹏、张耀辉、朱继超、朱旺源、蔡忠鹏,和本科生彭子颀等人完成。
图3 任务二获奖证书
图4 任务三获奖证书
USTC-IAT-United团队针对该竞赛的特点提出了特色解决方案。在任务二中,针对输入视频中说话人的面部动作信息,团队使用3DCNN方法进行时空融合,经预训练MoCo v2模型抽取融合帧的特征,利用Transformer Encoder和Decoder结构完成建模和解码,分析和识别对应的说话内容;在任务三中,针对基于面部肌电信号的句子级语音识别数据集,团队设计局部特征提取和全局特征融合的深度学习模型,在识别准确度及模型轻量化方面取得了最佳效果。在总决赛的比拼中,团队证明了所提出方案的可行性和有效性,并在两个任务中均取得了第一名的成绩。
本次大赛吸引了包括军事科学院国防科技创新研究院、北京大学、中国科学院自动化研究所、中国科学技术大学等众多高校、科研院所参与。
上述工作得到了国家自然科学基金面上项目和联合基金项目、安徽省重点研发计划、中国科学技术大学探索类基金、中国人工智能学会华为学术奖励基金等项目的支持。