2018年11月9日下午,IBM纽约华生研究中心吴凌飞研究员受语音国家工程实验室的邀请访问实验室,并在科大西区科技实验西楼118会议室做了题为《UNSUPERVISED FEATURE REPRE-SENTATION LEARNING VIA RANDOM FEA-TURES FOR STRUCTURED DATA: THEORY, ALGORITHM, AND APPLICATIONS》(基于随机特征的结构化数据无监督特征表征学习:理论,方法及应用)的精彩报告。本次人工智能系列讲座由汪增福教授主持,语音实验室师生及科大校内其他专业感兴趣的师生聆听了本次报告。
报告会上,吴凌飞博士主要分享了结构化数据的特征表征学习、知识表示学习的应用前景和目前遇到的挑战;利用大规模的数据开发一个可扩展的算法等三方面内容。吴凌飞博士还介绍了最近一年来进行的两项工作。
具体到报告内容,吴凌飞博士首先介绍了Random warping series(RWS)方法,该方法能够将graph,text,string,time series等结构化数据,通过学习嵌入(embedding)来提取特征,相比之前的random feature的方法,该方法能够接受任意dimensions的输入。
紧接着,详细讲解了Random warping serie-s(RWS)方法的理论定义,算法的求解方法,收敛性,计算复杂度,并行性,可扩展性。最后在多个数据集上比较了该方法的分类性能,验证了RWS算法的有效性。
在项目工作上,吴凌飞博士介绍了Word embed-ding:word2vec to document em-bedding这项工作。从问题的定义角度,描述了word embedding 的发展进程,并从文本情感分析角度切入,认为在学习嵌入的过程中semantic meaning的意义;接着比较了BOW,TF-IDF和LDA等方法的缺点,以及近来深度学习方面的进展:Word2vec /doc2vec,以及Word mover’s embedding方法的理论定义,算法的求解方法,收敛性,计算复杂度,并行性,可扩展性;最后在多个数据集上比较了该方法的分类性能,验证了算法的有效性。
吴博士毕业于威廉玛丽大学计算机系,在IBM全球研究院总部(IBM T.J. Watson Research Center)担任研究员职务,主要研究方向为机器学习,深度学习,表征学习,自然语言处理,大数据。吴博士已经发表20几篇顶尖杂志和会议论文,并长期担任AI/ML/DL/DM国际顶会的TPC (技术委员会委员)。
在报告会提问交流环节,在场的老师和同学们针对吴凌飞博士的报告,提出了“document embedding是如何用预训练的word embedding的;定义的核函数,它有什么优点?近似求解的方法是否影响收敛性;文本情感分析任务,能不能从文本中提取音素信息?”等专业领域研究相关的问题,吴凌飞博士针对同学们的提问,给出了专业详细的解答。
经过近2个小时的报告和交流,本次报告在汪增福教授的精炼总结和在场师生们的鼓掌中圆满结束。