叶中付教授团队在基于稀疏表示的语音增强研究方面取得进展

发布时间：2014-11-26

语言是人类最重要的信息交流工具。语音作为语言的声学表现形式，不仅自然方便，而且准确高效。然而实际生活中，当人们用语音交流时，总是同时存在各种各样的背景噪声，这使得语音会被这些背景噪声干扰。语音增强的目标就是要提高这些受污染的语音质量以及可懂度，在某种程度上减轻或者抑制背景噪声，这是语音信号处理领域一个重要的课题。

目前，中国科技大学语音及语言信息处理国家工程实验室空时信号处理研究方向叶中付教授团队，针对背景噪声是干扰语音和冲击噪声的情况展开了深入研究。研究团队利用稀疏表示和字典学习的思想，提出了一系列的语音分离算法和语音降噪算法。

针对背景噪声为干扰语音的情况，研究团队提出了一种语音信号的双层稀疏结构，这使得语音信号的稀疏表示更加具有分散性；区分性字典学习方法的提出，这是通过惩罚交叉投影项和联合优化子字典，能够提高单通道语音信号的分离性能；另外还将序贯的思想引入到字典学习中来，这是根据语音成分的易分性，实现其分批次分离。

图1、基于序贯区分性字典学习的语音增强框架

针对背景噪声为冲击噪声的情况，如一些年代久远的音频档案中经常出现的大量冲击噪声。研究团队提出了一种稳健的语音信号分解模型，即通过构建一个新颖的混合字典，可以几乎无失真地还原出被噪声污染的语音数据。

图2、被冲击噪声污染的语音数据

上述研究成果均以正式论文的形式发表在了IEEE Transaction on Audio Speech and Language Processing和Signal Processing上。论文作者分别为鲍光照、徐杨飞、童仁杰以及导师叶中付教授等。

IEEE Transaction on Audio Speech and Language Processing是语音信号处理领域的国际顶级期刊之一，主要涵盖了与音频、音乐、语音和语言的科学、技术和应用相关的分析、编码、增强、识别和合成等内容，目前影响因子是2.625。

【论文信息】

1. Guangzhao Bao, Zhongfu Ye, Xu Xu, and Yingyue Zhou, A Compressed Sensing Approach to Blind Separation of Speech Mixture Based on a Two-Layer Sparsity Mode, IEEE Transactions on Audio, Speech and Language Processing, Vol. 21, No. 5, Pages 899-906, Dec. 2013.

2. Guangzhao Bao, Yangfei Xu, and Zhongfu Ye, Learning a Discriminative Dictionary for Single-channel Speech Separation, IEEE Transactions on Audio, Speech and Language Processing, Vol.22, No.7, Pages 1130-1138, July 2014.

3. Yangfei Xu, Guangzhao Bao, Zhongfu Ye, and Xu Xu, Single-channel Speech Separation using Sequential Discriminative Dictionary Learning, Signal Processing, Vol. 106, Pages 134-140, Jan. 2015.

4. Renjie Tong, Yingyue Zhou, Long Zhang, Guangzhao Bao, and Zhongfu Ye, A Robust Time-frequency Decomposition Model for Suppression of Mixed Gaussian-impulse Noise in Audio Signals, IEEE Transactions on Audio, Speech and Language Processing, 2014, accepted.