香港理工大学李功益副教授和涂有志博士作学术报告
2026年5月28日,香港理工大学李功益副教授和涂有志博士后受邀访问中国科大,并在高新校区信智楼C301会议室为我院师生分别做了题为“超越点估计:说话人表征学习中的不确定性(Beyond Point Estimates: Uncertainty in Speaker Representation Learning)”和“时长感知的自注意力机制用于语音深度伪造检测(Duration-aware self-attention for speech deepfake detection)”的高水平学术前沿讲座。本次报告由凌震华教授主持。

报告中,李功益副教授指出在过去几十年中,说话人建模经历了从生成式方法到基于深度学习的嵌入表示的发展历程。尽管这些方法取得了显著成功,但它们大多依赖于确定性的点估计,忽略了由数据变异性、噪声以及观测样本有限所带来的固有不确定性。在本次报告中,我们将从不确定性的视角重新审视说话人表征学习。为此,本报告首先回顾生成式建模与判别式建模两种范式的发展历史,分析其基本假设及局限性。随后,介绍基于线性高斯框架的概率说话人嵌入,该方法在学习说话人嵌入的同时,对其不确定性进行显式建模。
涂有志博士指出传统的语音深度伪造检测器通常通过填充或截断的方式处理固定长度的语音片段,这在面对现实场景中的变长语音数据时会导致检测性能下降:填充会引入干扰性的人工边界,而截断则可能丢失关键的伪造痕迹信息。针对这一问题,本次报告介绍一种时长感知自注意力机制。该方法将根据语音时长和片段偏移量,通过傅里叶特征映射计算得到的全局时间嵌入,直接融入自注意力机制之中。

讲座结束后,李功益副教授和涂有志博士与在场师生进行了深入交流,就说话人识别和伪造语音检测领域的问题展开了热烈讨论。现场氛围活跃,参会师生纷纷表示受益匪浅。
李功益副教授简介:
李功益(Kong Aik Lee)副教授现任香港理工大学电机及电子工程学系副教授。其研究方向包含话者隐私保护和安全、伪造语音识别、话者识别、语音及语言处理、机器学习等研究方向,已发表论文160余篇,指导学生分别于2014和2015年两次获得Ganesh N. Ramaswamy Memorial Award for best student paper on Speaker and Language Recognition奖项,获2023 ICASSP Top 3% 论文。李老师于2017年至2021年任IEEE/ACM Transactions on Audio, Speech, and Language Processing副主编,于2016年至今任Elsevier Computer Speech & Language主编。
涂有志博士现在香港理工大学电机及电子工程学系博士后。涂有志博士于2022年在香港理工大学获得博士学位,后留在香港理工大学做博后至今。涂博士主要从事话者识别、伪造语音检测、机器学习等研究方向。
