大数据实验室论文获CICAI 2021最佳学生论文提名
发布时间:0002-11-30

2021年6月6日,由中国人工智能学会(CAAI)组织的首届国际人工智能会议(CAAI International Conference on Artificial Intelligence,CICAI 2021)于杭州落下帷幕。其中,大数据实验室张哲同学的论文 “Knowledge Powered Cooperative Semantic Fusion for Patent Classification” 入选了本届会议的最佳学生论文提名(Best Student Paper Finalist)。

国际人工智能会议 CICAI 2021由中国人工智能学会主办,旨在促进国内外学术界同仁的深度交流、互相启发,引领人工智能颠覆性理论、方法与技术的发展趋势。本届会议共收到来自中国、美国、加拿大、英国、澳大利亚等国家的307份有效投稿,经过严格的筛选,仅有15篇高分论文入选口头报告(Oral Presentation),录取率仅为4.8%。

在该工作中,作者及其所在研究组面向复杂标签体系下的专利文本分类问题,提出了一种知识增强的专利分类方法。随着专利数量的爆炸性增长和专利分类体系的愈加复杂,人们日益倾向设计自动化的分类方法来避免大量的人力工作。然而,已有的自动分类方法通常借助预训练模型和深度神经网络建模文本中的词义和上下文语义信息,却往往忽略了专利中的科学实体和常识。事实上,这些知识与专利的类别标签存在紧密关联,可为分类提供额外的高区分度特征。

为此,研究组提出了知识增强的协同语义表征框架,借助外部知识以获得更精准的专利分类结果。具体而言,首先利用实体链接和知识嵌入算法,来挖掘文本中的实体及其语义。进而,设计了相互注意力机制,利用实体语义提取纯文本中的关键片段,而后利用文本语义抑制不良实体带来的语义噪声。最后,通过构造专利邻居图和相应的图卷积网络,聚合邻域信息,促进实体和文本的语义融合。在百万量级专利数据集上的实验表明,该技术能够充分挖掘专利中的实体知识和文本语义,从而取得了显著优于已有模型的表现。

本文工作得到了国家重点研发计划项目“科技大数据的数据挖掘与演进规律”及多项国家自然科学基金项目的支持。通过该技术的研发,将为专利大数据的智能化分析提供有力工具,进而为科研团队或科研管理部门进行专利的申报、管理及趋势研究提供技术支持。

本届会议的最佳学生论文奖由来自加拿大韦仕敦大学的研究者获得,而最佳论文奖则花落由OPPO美国研究中心、美国威斯康星麦迪逊大学和哈佛大学所组成的联合团队。


会议链接:
https://cicai.caai.cn/
相关新闻:
https://mp.weixin.qq.com/s/h_tA3gcRrJNUSiSSdMbwgw