多模态研究团队荣获2023年度人工智能顶会CVPR和ICRA九项挑战赛冠军

发布时间：2023-07-13

2023年2月至6月，计算机视觉顶会IEEE / CVF Computer Vision and Pattern Recognition Conference（国际计算机视觉与模式识别会议，简称：CVPR）联合全球权威学术机构和众多知名企业，共同举办了多项挑战赛。2023年5月至6月，机器人学顶会IEEE International Conference on Robotics and Automation（国际机器人技术与自动化会议，简称：ICRA）针对机器人技术与自动化领域最新发展，举办了系列挑战赛。上述竞赛吸引了来自AI相关研究团队的广泛参与，并于近日陆续公布了获奖结果并颁发了获奖证书。CVPR和ICRA是由 IEEE 主办的世界顶级AI学术会议，具有极高的学术影响力和社会认可度。

由语音及语言信息处理国家工程研究中心於俊老师带领的中国科大参赛团队在本年度CVPR和ICRA中共参与了UG2+雾霾目标检测、FGVC10-iBioHash细粒度图像检索、VizWiz-Few-Shot少样本物体识别、PBVS MAVIC跨模态图像翻译、ACDC域自适应语义分割、Embodied AI具身智能、RoboDepth鲁棒深度估计等九个不同赛道的比拼，与来自全球的顶尖研究队伍同台竞技，并最终共计获得了九项冠军。针对不同赛道的比赛内容，团队分别提出了特色解决方案，并在对应指标上表现出了最优效果，不同赛道的具体情况如下：

（1）CVPR 2023 UG2+雾霾物体检测：

UG2+挑战赛自2018年起至今已成功举办六届，旨在挑战和探索恶劣成像条件下的图像复原与增强算法，吸引了来自全球三百余支队伍的参与。其中，赛道一为“雾霾目标检测”，任务背景基于在雾、霾等恶劣天气条件的影响下图像出现的非线性噪声、模糊、对比度降低和颜色变暗等问题，旨在评估和提高物体检测算法在雾霾环境下拍摄图像上的鲁棒性。

团队针对比赛官方给定的小样本数据集，为了在雾霾条件下获得更加鲁棒的检测效果，同时采用Mosiac、RandomAffine、MixUp、Albumentations、Augment HSV、Horizontal Flip等离线和在线的数据增强方式进行数据扩展，针对现有的YOLOv8x结构，通过引入C2f提升Darknet-53模块的性能，搭建目标检测的骨干网络，进一步提高在雾霾条件下的检测器性能。在最终测试比拼中，团队取得了第一名的成绩。团队工作由於俊老师指导研究生陆仁杰、王雷磊、贺鹏，和本科生彭子颀等人，并联合网易伏羲实验室完成。

（2）CVPR 2023 FGVC10-iBioHash细粒度图像检索：

细粒度图像检索旨在检索属于超类别的多个从属类别图像，关键在于理解细粒度的视觉差异，以区分总体外观高度相似但细微特征不同的对象。随着细粒度数据的爆炸式增长，细粒度哈希作为处理大规模细粒度检索任务的一种前景解决方案，已被证明能够大大提高存储效率。而在第十届FGVC挑战赛中进行的48bit哈希码图像检索对任务提出了巨大挑战。

为了改进传统哈希网络表现不佳的困境，团队采用EVA和BEIT模型作为Backbone，引入度量学习方法，将图像嵌入到高维特征空间中来更好表达图像语义信息；应用Pyretri存储增强和查询扩展技术；引入倒排索引，在图像特征与图像索引之间建立映射关系以实现高效图像检索；针对数据集特点设计了“分组聚类”处理策略；最后利用MD5算法对相同类别图像生成了48bit哈希码。在决赛中，团队在mAP@20指标上超过亚军28个单位。团队工作由於俊老师指导研究生常昊、赵功鹏、李仁达、蔡忠鹏等人，并联合阿里巴巴集团完成。

（3）CVPR 2023 VizWiz-Few-Shot少样本物体识别：

少样本物体识别是计算机科学领域的一个长期挑战，其目的是缓解深度学习的数据饥渴特征问题。VizWiz ORBIT Few-Shot挑战赛旨在推动现实世界数据下少样本物体识别方面的进展，并通过为低视力人士应用可教物体识别器来实现这一目标。

团队选择Prototypical Networks作为基准方法，为每个类别学习一个原型或潜空间的中心。通过对数据集特点的分析，团队发现大量杂乱的数据集图像只显示了局部信息，甚至在视觉上无法识别是否出现目标，因此在采用更强大Backbone的基础上，引入空间注意力和通道注意力来更好地选择和利用不同层级和通道的特征，增强特征的表达能力和鲁棒性。团队在评估指标上取得了最优结果。该比赛的团队工作由於俊老师指导研究生张冰源、陆仁杰、李仁达、李艺豪、蔡忠鹏等人，并联合网易伏羲实验室完成。

（4）CVPR 2023 PBVS MAVIC跨模态图像翻译：

自2004年成立以来，“超光谱感知”系列研讨会（IEEE PBVS）一直是CVPR的关键事件之一，目前已成功举办19届，其特点是使用可见光谱和不可见光谱(红外、合成孔径雷达、毫米波雷达等)进行成像及视觉融合感知任务。本次举办的跨模态图像翻译挑战赛利用电子光学（EO）和合成孔径雷达（SAR）传感器为翻译提供了独特的环境，旨在了解如何将一种模式的数据转换为另一种模式的数据，即设计将SAR模式转换为EO模式的方法。

团队通过引入降噪模块来去除SAR图像中的噪声，同时保持图像的结构信息。采用全局生成网络保持整体图像结构，使用局部增强网络来增强图像的具体细节，使用多尺度判别器和改进的对抗损失来进一步提升图像整体和局部的生成质量。在决赛阶段，团队取得了第一名的成绩，表现出了最优的算法性能。该比赛的团队工作由於俊老师指导研究生杜深深、陆仁杰、李鹏伟、谢国辰、蔡忠鹏、卢科达等人，并联合华为公司完成。

（5）CVPR 2023 ACDC正常场景到极端场景下的域自适应语义分割：

ACDC挑战赛旨在针对不利的视觉条件下对驾驶场景进行语义理解。比赛提供了在雾、夜间、下雨和下雪等不利情况下的记录数据和白天、晴朗天气下相同场景的正常条件记录数据，并覆盖了城市地区、高速公路和农村地区等多个场景。

针对极端环境下图像差异大的特点，团队提出了针对性的解决方案，并将模型鲁棒性作为重要的参考指标。在自训练域适应框架中，预训练FAN模型进行跨场景特征提取，并使用多分辨率特征融合与掩码一致性约束提高预测精度。此外采用了知识蒸馏方法，进一步使得模型在面对不同场景时展现出出色的鲁棒性。最终在平均预测准确度上取得了最佳效果。该比赛的团队工作由於俊老师指导研究生刘泉晟、普成道等人完成。

（6）CVPR 2023 Embodied AI具身智能:

具身智能指的是具有身体并支持物理交互的智能体，如自动驾驶汽车等；而非具身智能指的是没有物理身体而只能被动接受数据的智能体，如ChatGPT。Embodied AI Mainskill系列比赛是由加州大学伯克利分校、圣地亚哥分校及斯坦福大学联合举办的具身智能机器人挑战赛，旨在可以像人一样感知环境、自助规划、决策、行动并执行任务。

针对现有模型普遍存在过拟合问题，从而导致无法使机器人像人类一样高效准确地完成任务这一痛点问题，团队设计了双阶段微调策略，深度挖掘基于点云与强化学习网络的模型潜力，改善了具身智能模型的泛化性，使得机器人可以在虚拟环境下自主完成简单的家务，提升了机器人完成任务的成功率，并在全部3个赛道均获得了冠军。该比赛的团队工作由於俊老师和高放、李雪涛、双丰等人，并联合广西大学完成。

（7）ICRA 2023 RoboDepth鲁棒深度估计：

深度估计作为计算机视觉、模式识别和机器人等学科中的一个重要交叉任务，在近年来得到了大量关注和显著进步。与以往主要关注精度不同，RoboDepth竞赛在评测模型预测准确率的同时更加强调模型鲁棒性，即：干净数据上训练得到的模型在损坏数据上的性能。

团队通过实验发现，利用类似于MIM预训练所得的模型具有较好的鲁棒性，因此选择AiT和Swinv2-MiM作为Backbone；进一步，团队发现MAE可以作为一种强有力的数据增强手段，将重建之后的图像与原图融合，能够一定程度提高模型的泛化性能。除此之外，发现CutFlip操作弱化了模型对于图像垂直空间上的依赖关系，能够更多的关注图像中的语义信息，从而在深度估计任务上有独到的提升。在推理过程中，对于严重损坏的图像进行超分辨率处理以抑制信息损失，从而有效提高了深度估计性能，并最终取得了第一名的成绩。团队工作由於俊老师指导研究生靖默涵、李鹏伟、齐晓滑等人，并联合网易伏羲实验室完成。

本年度CVPR挑战赛和ICRA挑战赛共吸引了来自全球各个国家的众多学术组织、顶尖高校、知名企业参与。上述工作得到了国家自然科学基金面上项目和联合基金项目、国家航空科学基金、安徽省重点研发计划、中国科学技术大学探索类基金、中国人工智能学会华为学术奖励基金等项目的支持，并得到了华为、网易、阿里、云知声、平安科技等头部AI公司的大力支持。