主要开展语音合成、语音识别、语音增强、说话人识别、语种识别、手写识别与光学字符识别、自然语言处理等领域的研究工作。研究室现有教授 7 人(其中兼职教授4人)、副教授5人。
研究室承担了多项863计划课题、973计划课题、国家基金项目等,在人机语音交互技术各研究领域取得了丰硕的研究成果,在历次国内国际的语音评测过程中均取得了优异的成绩,核心技术水平达到了国际先进领先。 同时在产业合作方面与科大讯飞形成了良好的产学研体系,推动了语音及语言技术研究创新和产业应用发展。 研究室重视人才培养质量提高,培养毕业的研究生中曾获得微软学者奖、郭沫若奖学金、中国科学院院长奖学金、中国科学院院长特别奖等。
中国科学技术大学电子工程与信息科学系教授、博士生导师,语音及语言信息处理国家工程研究中心副主任,入选国家重大人才工程。主要从事语音信号处理、自然语言处理等方向的研究。主持多项国家自然科学基金、国家重点研发计划课题、安徽省语音专项等科研项目,已发表论文200 余篇,累计被引1.3万余次,获国家科技进步奖一等奖、IEEE信号处理学会最佳青年作者论文奖等奖项,多次在国际语音语言技术评测中获得第一名。任IEEE/ACM TASLP等期刊编委、IEEE信号处理学会语音与语言处理技术委员会委员、中国计算机学会语音听觉与对话专委会秘书长。
工学博士,中国科学技术大学教授 、博士生导师;语音及语言信息处理国家工程研究中心技术委员会委员,《数据采集与处理》编委。曾任语音及语言信息处理国家工程实验室(现名为“语音及语言信息处理国家工程研究中心”)副主任(2011年-2022年)。
主要从事语音信号与信息处理、语音识别、说话人识别、语种识别、语音合成、语音增强等方向的教学与科研工作。
作为项目主持人承担并完成了国家自然科学基金、中科院C类先导重大专项、国家863计划、973预先研究计划、国防预先研究计划、工信部电子基金、安徽省语音专项等多项国家级或省部级科研项目。在IEEE/ IEEE-ACM Trans.、ICASSP、INTERSPEECH、等国内外期刊和语音领域顶级学术会议上发表学术论文100余篇。获得国家科技进步二等奖1次、安徽省级科技进步一等奖1次、省部级科技进步二等奖2次、安徽省自然科学优秀论文一等奖1次、IEEE Signal Processing Society Best Paper Award 一次。
电子工程与信息科学系教授,博导。2009年-2013年就职于科大讯飞研究院和微软亚洲研究院,期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用,已发表论文的谷歌学术引用13000余次,获得2025年IEEE信号处理快报最佳论文奖、2018年IEEE信号处理学会最佳论文奖、2023年国家科技进步一等奖、2022年吴文俊人工智能科技进步一等奖、2018年安徽省科技进步一等奖、2022年ISCSLP国际会议最佳论文奖,并同时入选2024年/2025年斯坦福全球前2%顶尖科学家“终身科学影响力排行榜”和“年度科学影响力排行榜”。目前是CCF杰出会员以及IEEE/INNS/CSIG高级会员,并担任IEEE SPL期刊编委、IEEE信号处理学会音频及声学信号处理技术委员会(AASP-TC)委员、CCF语音对话与听觉专委会常务委员,曾担任IEEE/ACM TASLP期刊编委、IEEE信号处理学会语音及语言处理技术委员会(SLTC)委员、亚太信号与信息处理协会(APSIPA)语音语言音频分会技术委员会(SLA-TC)主任和CSIG文档图像分析与识别专委会常务委员。
电子工程与信息科学系副教授,硕士生导师。主要从事语音及语言信号处理,说话人识别,语音识别。
在国内外学术期刊与会议上发表学术论文超过60篇;受国家自然科学基金和国家863项目共同支持的研究成果“KD系列汉语文语转换系统”获 2002年国家科技进步二等奖。在NIST举办的2008年世界说话人识别大赛中,一举夺得综合成绩世界第一,又在此后连续三届比赛中获得优异成绩,一直名列前三;在NIST举办的2016年以语音识别为前端的关键词识别大赛中,获得第二名;指导的学生获得ISCSLP2010,NCMMSC2013最佳学生论文奖。
电子工程与信息科学系副教授,硕士生导师。主要从事人工智能和语音信号智能处理研究。
承担了自然科学基金面上、 安徽省自然科学基金重点等多项科研项目,包括“面向服务机器人的情感认知、表达及管理关键技术”(自然科学基金重点子课题)、“基于情境建模的高效视觉匹配方法及其应用研究” (自然科学基金面上)等;作为主要研究人员参与了“智能语音技术及产品研发与产业化--基于自然语音人机交互的信息搜索系统研发和产业化”(工信部),“面向高级人工智能领域的类人智能关键技术及系统研发”(安徽省科技厅)等;在语音信号处理领域的多项成果发表在TALSP,CSSP, ICASSP,INTERSPEECH, 等多个重要国际会议和期刊上。
电子工程与信息科学系副教授,依托语音及语言信息处理国家工程研究中心主要研究具身听觉计算、分布式麦克风阵列、脑启发语音信号处理及其在车载、家居、助听器等场景的应用,2020年博士毕业于荷兰代尔夫特理工大学。主持国家自然科学基金、中科院先导C类专项课题、安徽省重大科技攻关专项课题、省市自然科学基金等纵向项目7项,在知名国内外学术期刊和会议上已发表高水平学术论文100余篇,获信号处理领域旗舰会议IEEE-SAM最佳论文奖、高影响力论文、产学研合作创新成果优秀奖等,带领团队获得语音技术领域多个重要国际学术竞赛冠军。现为IEEE高级会员、CCF语音对话与听觉专委会执行委员,担任语音技术领域顶刊IEEE Transactions on Audio, Speech and Language Processing (TASLP)和信号处理顶刊Elsevier Signal Processing (SIGPRO)的副编辑。
电子工程与信息科学系特任副研究员。研究方向为说话人识别、说话人安全保护、语音合成。
2016年获得中国科学技术大学博士学位,曾在新加坡通讯研究所和新加坡南洋理工大学访问学习,后加入微软(中国)语音组工作6年,参与多项重要研发项目。在语音信号处理领域的多项成果发表在 ICASSP,INTERSPEECH 等多个重要国际会议和期刊上。担任语音信号处理领域主流国际期刊和会议同行评审。
电子工程与信息科学系特任副研究员、硕士生导师。主要研究方向包括语音编码、语音增强、语音合成及声音质量评价等。主持国家自然科学基金、安徽省自然科学基金等项目,作为骨干参与科技部重点研发计划子课题、国家重点研发计划课题等多项国家和省部级科研任务。在IEEE TASLP、ICASSP、Interspeech 等语音技术领域顶级期刊和会议发表学术论文 70 余篇。入选 2024 年度“小米青年学者”,多次在国际评测与竞赛中获奖,如以第一完成人身份在 Interspeech 2024 离散语音挑战赛(Discrete Speech Challenge)中获得声码器赛道冠军;并以通讯作者身份多次获得论文类荣誉,如 2023 年第十八届全国人机语音通讯学术会议最佳论文奖、IEEE Spoken Language Technology Workshop 2024 最佳论文候选。此外,还获 2022 年产学研合作创新成果奖二等奖。现担任中国计算机学会语音对话与听觉专委会执行委员、奖励工作组助理,参与组织多个国内外重要学术会议和学术活动。
电子工程与信息科学系博士后研究员。研究方向为音视频语音增强、说话人日志和语音识别。
2024年获得中国科学技术大学博士学位,在语音和多媒体信号处理领域的多项成果发表在ICASSP、INTERSPEECH、TASLP、TMM等多个重要国际会议和期刊上。担任多语音和多媒体信号处理领域主流国际期刊和会议同行评审。
NSFC-通用技术基础研究联合基金子课题(批准号:U1836219),复杂环境下语音数据的说话人识别及关键词检索,2019.1-2022.12,主持,在研
国家重点研发计划子课题,2017FC0822505,语音识别技术研究及开发,2018.1-2021.12,78万,主持,在研
国家重点研发计划子课题,2016YFB1001303,基于大数据的自然交互意图理解和智能输入,2016.7-2020.6,主持,在研
高技术项目,2016.12-2019.12,主持,在研
融合多通道语境信息的类人智能感知机制与方法,国家重点研发计划项目,项目编号:2017YFB1002202,2017-2021
语音及语言人工智能关键技术与云平台研发,安徽省科技重大专项项目,项目编号:15CZZ02997,2015-2017
智能家居人机交互关键技术及终端控制平台、产品研发,安徽省科技重大专项项目,项目编号:18030901016,2018-2020
国家基金,基于回归神经网络的语音分离关键问题研究,2017.01-2020.12;
国家基金,面向服务机器人的情感认知、表达及管理关键技术,2017.01-2020.12;
安徽省科技重大专项,类脑智能语音关键技术与系统研发,2017.7-2019.6;
高新技术项目298,2006.10-2010.12;863项目,多语言语音合成关键技术与应用产品开发,2006.06-2010.10;863项目,基于HMM模型的高表现力多语种语音合成技术,2006.01-2008.12;
973前期研究专项,声纹识别及声音转换深度学习理论与方法(2012CB326405),2012.8-2014.8;安徽省语音专项,面向移动互联网的新一代语音合成关键技术及系统,2011.01-2012.12;
安徽省语音专项,面向高级人工智能领域的类人智能关键技术及系统研发,2014.7-2016.6;国家青年基金,结合发音动作参数的统计建模语音合成方法研究,2010.1-2012.12;国家基金国际合作与交流项目,高表现力多语种语音合成,2011.1-2012.12;国家基金,语音信号声纹信息成分的深层表达(61273264),2013.01-2016.12;国家基金,融合语音产生机理与统计声学建模的层次化语音合成方法(61273032),2013.01-2016.12;国家青年基金,基于深度神经网络的噪声鲁棒性语音识别方法研究(61305002),2014.1-2016.12;
工信部电子信息产业发展基金,智能语音技术及产品研发与产业化--基于自然语音人机交互的信息搜索系统研发和产业化(2013-472),2014.2-2015.12;
工信部电子信息产业发展基金,面向少数民族语言的智能语音技术及系统研发(2014-425),2014.10-2016.10;
中科院先导专项(B类),类脑语音处理模型(XDB02070006),2015.7-2017.6;安徽省科技重大专项,语音及语言人工智能关键技术与云平台研发,2015.7-2017.7;
“多语种智能语音关键技术及产业化”获2024国家科技进步一等奖。
2024年连续五届CHiME大赛收获冠军。
2024年DCASE(国际声学场景和事件检测及分类挑战赛)双赛道第一。
2024年声音质量评价挑战赛(VoiceMOS Challenge)赛道2冠军。
Interspeech 2024离散语音挑战赛(Discrete Speech Challenge)高采样率声码器赛道冠军。
2024中文听觉注意力解码竞赛跨被试赛道冠军。
2024车载多通道语音识别(ICMC-ASR)竞赛双料冠军。
2023年获得Audio Deepfake Detection (ADD)挑战赛赛道1.2冠军。
2023年IJCAI2023 Deepfake Audio Detection and Analysis (DADA)伪造语音检测赛道第一名。
2023年ICASSP2024车载多通道语音识别ICMC-ASR比赛ASR和ASDR两个赛道均获第一名。
2023年IWSLT23语音翻译比赛方言和离线赛道第一名。
2023年国际多通道语音分离和识别评测CHiME-7,多设备多场景远场语音识别任务全部两个赛道冠军。
2023年国际文档分析与识别会议(ICDAR)挑战赛,文档信息定位与提取任务全部两个赛道冠军,票证结构化信息抽取任务零样本赛道冠军。
2021年ICASSP2022 DiCOVA新冠声音诊断比赛语音和融合赛道第一名、呼吸赛道第二名。
2020—2023年连续三年获得DCASE国际挑战赛声音事件定位与检测任务第一名。
2020年DIHARD-III说话人日志比赛第一名。
2020年NIST-OpenASR21多语种语音识别比赛15个语种22项任务第一名。
2006—2019年连续十四年获得Blizzard Challenge国际语音合成评测第一名。
2019年,计算机视觉与模式识别国际会议(CVPR)的航空图像目标检测比赛,Task1第一名。
2019年,文档分析与识别国际会议(ICDAR 2019)举办的多项赛事中,包揽手写数学公式识别挑战赛CROHME全部两项任务以及场景文本视觉问答挑战赛ST-VQA挑战赛上全部三项任务冠军,此外还取得了街景招牌中文文本识别挑战赛ReCTS单字识别任务冠军。
2018年,获得Voice Conversion Challenge国际语音转换评测第一名。
2018年9月,第五届国际多通道语音分离和识别大赛(CHiME)包揽了赛事全部项目的冠军。
2018年,ICFHR2018东南亚棕榈叶手稿分析竞赛任务三和任务四冠军。
2018年,ICPR2018多样式网络图片识别与检测竞赛全部三项冠军。
2018年,ICPR2018遥感图像目标检测竞赛(ODAI)全部两项冠军。
2017年,获得RepEval 2017国际多类型自然语言推理评测第一名。
2016年,获得Winograd Schema Challenge 2016国际常识推理评测第一名。
2016年9月,第四届国际多通道语音分离和识别大赛(CHiME)包揽了赛事全部项目的冠军。
2014年10月,在国家863专家组组织的中文语音合成技术国际评比中,以大比分囊获所有指标第一名。
2011年国际NIST语种识别最混淆方言对测试第一名;2008,2010年连续两届NIST说话人评测中关键指标均保持前两名;
“智能语音交互关键技术及应用开发平台”获得2008年度安徽省科技进步奖一等奖、2011年度国家科技进步二等奖。
“KD系列汉语文语转换系统”获2002年度国家科技进步二等奖。
长期开展与知名企业、研究机构的合作,取得显著成果。如与科大讯飞形成了良好的产学研体系,推动了语音及语言技术研究创新和产业应用发展
研究室重视人才培养质量提高,积极为研究生提供多途径实习、合作培养等的机会。培养毕业的研究生中曾获得微软学者奖、郭沫若奖学金、中国科学院院长奖学金、中国科学院院长特别奖等。