2023年9月25日上午,微软王培栋博士受语音及语言信息处理国家工程实验室戴礼荣教授的邀请,在科大高新区信智楼C301会议室做了题为“LAMASSU: A Streaming Language-Agnostic Multilingual Speech Recognition and Translation Model Using Neural Transducers”( LAMASSU: 流式多语种语音识别和翻译模型)的精彩报告。本次报告由戴礼荣教授主持,科大讯飞及我校信息科学学院很多感兴趣的师生参加了此次报告会。
王培栋博士主要从三个方面介绍了前沿的研究工作,分别是多语言的语音识别和语音翻译、zero-shot的语音识别、语音识别和语音翻译联合优化的方法,他逐一讲解了这几个方面的研究方法和达到的性能,现场展示了详细的视频样例,清楚直观地展现出模型在真实场景中的应用效果。
针对多语言的语音识别和语音翻译的研究,王博士提出了 LAMASSU,其是一种使用neural transducer的流式语言无关的多语言语音识别和翻译模型。 他们团队提出了四种方法:用于多语言输出的统一联合和预测网络、基于聚类的多语言编码器、用于目标多语种识别的编码器和连接主义时间分类正则化。实验结果表明LAMASSU不仅大大减小了模型大小,而且达到了单语语音识别和双语语音翻译模型的性能。
针对zero-shot语音识别的研究,王博士提出将复用之前预训练好的LAMASSU模型,固定住编码器部分,然后加入额外的层在新的语种数据集上进行微调。该方法的好处是能够拓展到任意个数的语种。在25个语种数据集上的实验结果表明方法的优异性。
针对语音识别和语音翻译联合优化的研究,王博士基于LAMASSU模型同时优化语音识别任务和语音翻译任务,使得模型能够同时输出语音识别的输出和语音翻译结果的输出。他们团队主要采用了序列化输出训练(SOT)的方法,以及在此基础上,提出了改进版本的t-SOT,通过加入不同的标记符号区分不同任务的输出。最终将不同任务的输出按照时间顺序规整之后得到对应任务的输出。现场视频展现了模型优异的效果。
最后,王博士展望了几个前沿领域未来进一步工作和优化的方向,重点对语音领域的大模型(LLMs)和多模态任务进行了展望,并耐心聆听、解答了现场师生的提问。本次报告会在探讨与掌声中圆满结束。
【个人介绍】
王培栋是微软的高级科学家。 在加入微软之前,他曾在腾讯Al Lab、微软和谷歌工作,研究兴趣包括音频、语音和语言处理、机器学习和 Al4Science。 他(共同)撰写了 30 多篇论文,并担任 20 多个语音界会议和期刊的审稿人。