三连冠! 语音国家工程实验室夺国际多通道语音分离和识别大赛CHiME-6冠军
发布时间:2020-05-07
5月4日,国际多通道语音分离和识别大赛(CHiME)组委会在线揭晓最新一届CHiME-6成绩:中国科学技术大学和科大讯飞联合共建的语音及语言信息处理国家工程实验室(USTC-NELSLIP团队)在给定说话人边界的多通道语音识别两个参赛任务上夺冠


 
这是自2016年以来,中科大与科大讯飞联合团队第三次参加这项国际竞赛,并连续夺冠,这次的语音识别错误率从CHiME-5的46.1%降至30.5%。


1588835982560058.jpg

中科大与科大讯飞联合团队夺得CHiME-6冠军 (Track1:Ranking A)

1588836051114826.jpg

中科大与科大讯飞联合团队夺得CHiME-6冠军 (Track1:Ranking B)



“史上最难”语音识别任务


CHiME(Computational Hearing in Multisource Environments)由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起。今年是第六届,比赛的目的是希望学术界和工业界针对高噪声、高混响、及自由讨论场景提出全新的语音识别解决方案,从而进一步提升语音识别的实用性和普适性。



CHiME-6被称为“史上最难的语音识别任务”,TA有四大难点:
· 大量的语音交叠(Speech Overlap)
· 远场混响和噪声干扰对录音的影响
· 对话风格非常自由、近乎随意
· 训练数据有限



比赛极具挑战,参赛团队也大牛如云。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。


而在CHiME-6中,美国的约翰霍普金斯大学、俄罗斯STC公司、德国帕德博恩大学、捷克布尔诺理工大学等知名学术机构及企业均有参赛。



一年半,错误率从46.1%降至30.5%


本次CHiME-6和CHiME-5比赛使用的语音素材相同,即在多个不同的生活场景——包括多人在厨房边做饭边聊天、在起居室边用餐边聊天、在客厅聊天,聊天的声音中包括远场、混响、噪音、语音叠加等各种复杂因素,因而技术难度极大。

4.png

CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话



2018年的CHiME-5比赛,语音国家工程实验室和科大讯飞联合团队(USTC-iFLYTEK)斩获了四个比赛项目的全部冠军。然而,当年最优的参赛系统语音识别错误率仍高达46.1%,距离实用仍有较大差距,所以,今年中科大与科大讯飞联合团队重点聚焦于Track1,希望进一步探索复杂场景语音识别实用化的可能性。通过团队的技术攻关,将该任务上的语音识别错误率从原来的46.1%降至30.5%,大幅刷新该项赛事历史最好成绩,进一步拉大领先优势,最终在Track1的两个子任务(Track1-Ranking A,需使用官方语言模型;Track1-Ranking B,不限制语言模型)上均斩获冠军。




语音识别技术稳居世界领先水平


面对同样的“考题”,CHiME-6成绩大幅跃升,靠什么?

这得益于多年来在真实场景中的技术积累,中科大与科大讯飞联合团队针对比赛任务进行了一系列技术创新。

在前端信号处理方面,团队提出了基于空间-说话人同步感知的迭代掩码估计算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME),该算法结合传统信号处理和深度学习的优点,利用空时多维信息进行建模,迭代的从多个说话人场景中精确捕捉目标说话人的信息。该算法不仅有效降低环境干扰噪声,而且可以有效消除干扰说话人的语音,从而大幅降低语音识别的处理难度。

在后端声学模型上,团队提出了基于空间-说话人同步感知的声学模型(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM),通过在声学模型输入端拼接多维度空间信息和不同说话人信息,使其能自适应区分目标说话人和干扰说话人。因此,声学模型不仅依赖前端算法的处理结果,也能够自适应完成对目标说话人语音特征的提取,大幅提升多人对话场景下语音识别声学模型的容错率和鲁棒性。


回顾2018年组委会发布CHiME-5数据集,官方的基线系统错误率高达73.3%,中科大与科大讯飞联合团队通过不断进行技术创新,逐步刷新最好成绩。这充分说明,在远场、混响、噪音、声音叠加、语言风格随意等诸多不确定性的复杂场景下,中科大与科大讯飞联合团队的技术积累一直处于世界领先水平。