mwave@ustc.edu.cn +86 0551-63601307

微软亚洲研究院高级研究员段楠作高水平学术前沿讲座

  • 王百宗
  • 2022-01-06
  • 1392

2021年12月14日,微软亚洲研究院高级研究员段楠受邀来我校作题为“语义驱动视觉内容创造”的讲座,感兴趣的师生在西区3B201教室听取了此次报告。本次报告会由陈雪锦副教授主持。

多模态预训练技术是近年来计算机领域的研究热点,讲座中,段楠研究员首先介绍了仅针对文本或视觉的单模态预训练方法,例如文本中的BERT、GPT3、SimCSE等;除了文本,在视觉中预训练方法效果也很好,如ViMPC,BEiT等。随后段楠研究员介绍了针对语言和视觉内容的多模态预训练方法,文本的可视化理解在网络上有着很重要的作用,越来越多的公司也对可视化理解与构建重视起来,对多模态进行了探索,例如OpenAI公司的DALL·E与Facebook公司的Metaverse。在阐述了其重要性以后,段楠研究员着重讲解了几个具体应用与相关工作,即基于文本的图片与视频检索、图像合成与编辑、图像描述,并对该领域的挑战与未来研究方向进行了总结。

讲解结束后,段楠研究员对于在场师生们提出的生成模型训练方式、语言和图像模型结构实现、精细图像编辑、语言中的概念理解等方面问题进行了详细的解答。讲座最终在热烈的氛围中圆满结束。