基于多模态信息的语音处理国际挑战赛（MISP）成功举办

发布时间：2022-02-16

近日，基于多模态信息的语音处理（MISP）国际挑战赛的测试阶段已经结束，本次挑战赛由中国科学技术大学语音及语言信息处理国家工程研究中心（USTC-NERCSLIP）杜俊副教授联合多位国际行业专家发起，吸引了上海交通大学，昆山杜克大学，小米公司，贝壳集团，蔚来汽车等来自学术界与工业界的20家队伍参加。本次挑战赛为参赛者提供了MISP2021多通道家居电视场景音视频语料库。特别感谢科大讯飞对该数据集的独家大力支持。

随着越来越多语音应用需求的爆发，智能语音系统要迈向更加广阔的应用场景，如家居、会议等，就必须解决复杂声学场景下的诸多干扰因素（包括远场、混响、背景噪声、重叠语音），这对单一语音模态下的算法提出了更高的挑战。近年来，鲁棒性语音增强和语音信号处理等领域的技术飞速进步，使得上述场景下的语音应用效果得到极大改善，但是单一音频模态下的效果水平仍未满足实用化落地的要求。例如，在CHiME-6晚餐场景中，最优系统的词错误率约为40%，仍然处于实际不可用的状态。一些研究表明，在嘈杂的环境中引入面部和嘴唇运动等视觉线索来补充目标说话人的声学信息是非常有效的方法，结合视频和音频的多模态信息处理研究正变得越来越火热。

MISP2021数据集针对家居电视场景进行录制，即多个人一边看电视，一边用中文聊天，并会与智能家居设备进行互动。录制设备包含远场、中场和近场三套设备，同时对音频和视频进行同步录制。录制过程中，所有参与录制人员之间自由地使用普通话交谈，不限制话题和内容，对话风格高度真实地还原日常生活，包含大量的角色切换、语音重叠等现象。整体数据集时长超过120小时，场景覆盖包括超过30个真实房间和超过250个说话人。录制场景的一个示例如图1所示，图中六名参与者正在聊天，同时有多台设备并行地进行音频与视频录制。

图1 MISP2021家居电视场景音视频语料库录制场景

本次挑战赛设置了远场阵列会话音视频唤醒和远场阵列会话音视频语音识别两个任务，任务详细信息分别如下：

Task1：Audio-Visual Wake Word Spotting

任务一：音视频唤醒，即在给定的评估音频和视频样例中检测是否包含预定义的唤醒词。本任务采用错误拒绝率（False Reject Rate，FRR）和错误接受率（False Alarm Rate，FAR）的联合作为官方排名指标，具体定义如下：

微信图片_20220216093449.png

表1 MISP2021-AVWWS语料库

[P：表示包含唤醒词，N：表示不包含唤醒词]

Task2：Audio-Visual speech Recognition with Oracle Speaker Diarization

任务二：音视频语音识别，即在给定说话人信息的情况下，利用音视频信息识别出语音对应的文本。本任务使用标准字符错误率（Character Error Rate，CER）作为官方排名指标，具体定义如下：

微信图片_20220216094320.png

其中，S、D、I和N分别表示替换、删除、插入和真实字符数目。系统CER的值越低（0为满分），表示系统识别性能越好，排名越高。任务二对应的数据集合具体信息如表2所示。

表2 MISP2021-AVSR语料库

本次挑战赛为众多研究者提供了贴近真实场景的数据集，参赛者可以探索实复杂环境下的音视频融合技术，吸引了国内外众多顶尖院校与研究机构的参与。经过激烈地角逐，目前比赛已经接近尾声，MISP2021组委会将有序组织参赛者进行技术报告分享。另外，5篇比赛相关论文被ICASSP 2022接收，其中比赛综述论文1篇，技术方案论文4篇（Task 1和2各2篇）。在5月份的ICASSP主会上将会进行挑战赛技术方案的交流，进一步促进该领域的发展。

语音及语言信息处理国家工程研究中心将继续致力于引领学术创新，提升国际学术影响力，在智能语音、人机交互、海量信息处理及挖掘等重点领域保持国际一流水平。

（挑战赛官网：https://mispchallenge.github.io/index.html ）