喜报!语音国家工程实验室智能语音团队在语音和图文识别等国际评测和竞赛中包揽十一项冠军

发布时间：2018-09-21

自动化学会模式识别与机器智能专委会委员、中国科学技术大学杜俊副教授带领的团队，在最近的语音和图文识别等国际评测和竞赛中荣获十一项冠军：2018年第五届国际多通道语音分离和识别大赛（CHiME-5）全部四项冠军（语音识别），第16届国际手写识别前沿会议（ICFHR）东南亚棕榈叶手稿分析两项冠军（手写识别），2018年国际模式识别大会（ICPR）多样式网络图像识别与检测挑战赛全部三项冠军（光学字符识别），以及ICPR遥感图像目标检测全部两项冠军。充分展现了其团队国际领先的研究实力。

*多模态文本识别是指将不同模态的输入信号转换成文本的过程，包括语音识别、光学字符识别和手写识别等，在最近新一轮的人工智能大潮中，被认为是未来能够最早被广泛应用的领域之一。

第五届国际多通道语音分离和识别评测（CHiME-5）

北京时间2018年9月7日，国际多通道语音分离和识别大赛（CHiME）组委会在微软海得拉巴研发中心揭晓了最新一届CHiME-5的比赛结果，由中国科学技术大学杜俊副教授带领的“中科大与科大讯飞联合团队"包揽了赛事全部四个项目的冠军。这是继2016年的CHiME-4后，该团队再次在该赛事所有项目上问鼎。

CHiME(Computational Hearing in MultisourceEnvironments)属于国际语音识别评测中的高难度比赛，始办于2011年，由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所发起。比赛的目的是希望学术界和工业界针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案，以进一步提升语音识别的实用性和普适性。目前CHiME比赛已经举办五届，成为业界影响力最大、参赛队伍最多和水平最高的多通道噪声鲁棒性语音识别比赛。据悉，CHiME比赛重点解决的是真实、复杂场景下的语音识别，因此是语音识别领域最高难度的比赛之一。

本届大赛组委会通过采用4声道麦克风阵列对20个真实家庭的晚餐进行录音来形成比赛数据，用以考察和测试在家庭聚会等不同场景中自由交谈风格下的远场语音识别效果。该赛事的难点主要来自以下四个方面：1. 多麦克风阵列的同步录音；2. 对话风格非常自由、近乎随意；3. 大量的语音交叠（Speech Overlap）；4. 远场混响和噪声干扰对录音的影响。

根据比赛前官方数据，基于主流前端系统和深度学习模型下，本次比赛的样本语音识别词错误率（Word Error Rate，WER）高达81.14%，堪称“史上最难语音识别任务”。经过对比赛任务的深入分析，中国科学技术大学杜俊副教授及其学生高天和孙磊等人、科大讯飞研究院、西北工业大学陈景东教授、佐治亚理工学院李锦辉教授等国内外知名专家携手制定了有效的解决方案。最终在单麦克风阵列任务、分布式麦克风阵列任务（Rank A）和两种麦克风阵列对应的两个端到端的语音识别任务（Rank B），共计四项任务中连续两届包揽所有项目冠军，再次大幅刷新各项目的最好成绩。

图1：CHiME-5各参赛机构词错误率对比（单麦克风阵列Rank A）

图2：CHiME-5各参赛机构词错误率对比（分布式阵列Rank A）

图3：CHiME-5各参赛机构词错误率对比（单麦克风阵列Rank B）

图4：CHiME-5各参赛机构词错误率对比（分布式阵列 Rank B）

可见我参赛团队所提交的系统，较官方基线系统将WER降低了绝对35个点，在分布式麦克风阵列任务中，系统的效果甚至超过近讲麦克风，这不仅再次证明了语音及语言信息处理国家工程实验室在语音识别和多麦克风阵列语音信号处理领域内扎实的基本功和雄厚的实力，同时在分析和解决真实场景下的复杂问题时，实验室团队展现出的优异的技术整合能力。

ICFHR2018东南亚棕榈叶手稿分析竞赛

北京时间2018年8月5-8号，第16届国际手写识别前沿会议InternationalConference on Frontiers in Handwriting Recognition (ICFHR 2018) 在美国纽约州尼尔加拉成功举办。在该会议的东南亚棕榈叶手稿分析的全部四项比赛中，中国科学技术大学杜俊副教授带领的团队，搭建了基于深度学习的系统模型，在字符识别和文本音译两个任务中获得了非常好的性能，且均以明显优势取得了第一名的好成绩。

东南亚棕榈叶手稿分析是一个非常具有挑战性的任务，其中包括巴厘语，巽他语和高棉语，该任务的难点在于：1.由于物理原因(光照、风化、褪色、刮痕等)，棕榈叶手稿的图像质量受到极大的影响；2.手稿复杂度高，不仅仅是从左往右的水平阅读顺序，还有垂直的阅读顺序；3.大多数为传统文字，已很少使用，训练样本不足。

ICFHR东南亚棕榈叶手稿分析竞赛一共有四个任务：任务一是将自然场景下的棕榈叶手稿做二值化处理(转换成白底黑字)；任务二是从棕榈叶图像上准确定位出文本所在的区间；任务三是是对切分好的东南亚棕榈叶字符做识别；任务四是对切分好的东南亚棕榈叶文本行做音译，得到相应的音译文稿。其中，中国科学技术大学团队参加了任务三和任务四的竞赛。在任务三中，杜俊副教授团队使用基于密集卷积神经网络模型在任务三中获得了比第二名高两个绝对点的性能优势。参赛人员还有学生汪子锐和王文超。

图5：ICFHR 2018 Competition On Document Image Analysis Tasks forSoutheast Asian Palm Leaf Manuscripts 任务三冠军获奖证书

针对任务四的音译任务，杜俊副教授团队提出使用基于注意力机制的编解码模型来生成东南亚棕榈叶文本的音译字符串。该方法是一个端到端的方法，成功避免了字符切分的难题，通过训练注意力模型来完成字符切分对齐，且针对该任务提出了经典注意力机制的改进版本，即全覆盖注意力机制，通过将历史的注意力对齐信息生成全覆盖向量送到注意力模型，使得注意力模型知道输入的棕榈叶文本行中哪一个字符已经被翻译，哪一个字符未被翻译，通过这样做到不重复关注到已经翻译的字符，有效解决欠翻译和过翻译问题。该模型无需任何东南亚语的先验知识，无需语言模型。该方法具有很好的泛化能力，在任务四的四个子分支任务下都较第二名获得了近1.5个点的绝对提升。任务四中杜俊副教授带领的团队参赛人员还有戴礼荣教授和学生张建树。

图6：ICFHR 2018 Competition On Document Image Analysis Tasks forSoutheast Asian Palm Leaf Manuscripts 任务四冠军获奖证书

ICPR2018多样式网络图片识别与检测竞赛（MTWI）

北京时间2018年8月20号，在第24届国际模式识别大会（ICPR 2018）上，竞赛组委会宣布中科大语音及语言国家工程实验室与科大讯飞联合团队nelslip(iflytek&ustc)，包揽了全部三项任务的冠军。

MTWI（Multi-TypeWeb Images，多样式网络图像）识别挑战赛由模式识别领域的国际盛会ICPR（International Conference on PatternRecognition）和阿里巴巴联合举办，吸引了三星中国研究院、商汤科技、网易、清华大学、北京大学、中科院等众多产业界和学术界的著名研究机构参与。

此次比赛共分为三个子任务：1. （文本行识别）要求参赛者识别出给定的文本行图像中的文字； 2. （文本检测）要求参赛者在给定的网络图像中检测出文本行所在的位置； 3. （端到端文本检测和识别）则需要同时对文本行进行检测并识别。

针对此次比赛，杜俊副教授、戴礼荣教授及其学生张建树、朱意星等首次提出汉字部件分析网络(Radical Analysis Network)用以解决中文文本行中的少样本识别问题，即生僻字识别。在部件分析网络提出之前，大多模型都是把汉字当成整个字符或一张图片来识别，所用到的方法跟图像分类方案差不多，忽略了汉字本身的重要性质——汉字由偏旁部首构成。

杜俊副教授团队基于Encoder-Decoder思想，提出了一种新的结构分析算法，该算法将中文拆成多个部件、英文单词拆成单个字符后借助Attention进行识别，在准确识别出多个部件后再利用动态规划策略进行重组，从而得到最终的输出结果。这种依赖分析结构的方法，可以有效地解决字体多样、结构复杂带来的识别率低下的问题。除此之外，还使得模型具备了识别低频词和集外词的能力，例如在训练集里没有出现过的词，这时候不需要额外收集数据，也不需要重新训练模型。

针对文本检测任务，为了解决文字尺度变化大、文本行朝向不一致的问题，杜俊教授团队基于PANet提出了LocSLPR与旋转堆叠R-CNN。LocSLPR是一种针对弯曲文本行和四边形设计的新的坐标回归的方法，它可以解决拟合四个点坐标的歧义性，并且相比mask-head需要更少的参数，实现了更优的性能。

图7： ICPR MTWI 2018任务一冠军获奖证书

图8： ICPR MTWI 2018任务二冠军获奖证书

图9： ICPR MTWI 2018任务三冠军获奖证书

ICPR2018遥感图像目标检测竞赛（ODAI）

ICPR MTWI竞赛中的检测方案同样被用于ICPR的遥感图像目标检测竞赛中，且以很明显的优势获得全部两项比赛冠军。

遥感图像目标检测是一个非常具有挑战性的任务，该任务的难点在于：1.由于目标种类繁多，所以物体的形态，大小，差异非常巨大；2.训练样本中，不同类别的样本分布不均衡；3.与传统目标检测的水平矩形框的标注不同，卫星图使用了旋转矩形框作为标注，这导致我们需要针对这种特殊性设计不同的网络。

比赛一共有两个任务：任务一是要求在一张卫星图中检测出物体的位置和类别，其中位置指的是包围物体的最小四边形；任务二同样是在一张卫星图中检测出物体的位置和类别，但是其中位置指的是包围物体的最小水平矩形框。在遥感检测中获得冠军更充分说明了该检测方便的实用性和泛化性。

图10： ICPR2018遥感图像目标检测任务一冠军获奖证书

图11： ICPR2018 遥感图像目标检测任务二冠军获奖证书