数据科学学院师生6篇论文被顶会ICASSP 2024录用
香港中文大学(深圳)数据科学学院师生共6篇论文被国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,简称ICASSP)2024录用。ICASSP由国际电子技术与信息科学工程师协会(Institute of Electrical and Electronics Engineers,简称IEEE)主办,是全世界最大、最全面的信号处理及其应用方面的顶级会议。
论文来自港中大(深圳)数据科学学院4位博士生:白奇丙、Sho Inoue、王力、杨忆然;2位本科生:顾毅骋、李珈祺,均为论文第一作者;3位教授:李海洲、武执政、谢李岩。港中大(深圳)数据科学学院学生们不断展示科研的潜力与实力,除博士生外,在国际顶会NeurIPS 2023、ICSE 2024等的论文发表中均出现本科生的身影,2023年,数据科学学院共9位本科生在国际权威期刊和顶级国际学术会议上发表论文。
ICASSP简介
国际声学、语音与信号处理会议 (International Conference on Acoustics, Speech and Signal Processing, 简称ICASSP) 是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。
作为国际电子技术与信息科学工程师协会 (Institute of Electrical and Electronics Engineers,简称IEEE) 的一个重要会议,ICASSP除了有几十年历史外,其论文还经常被三大检索工具检索。因此,ICASSP对于信号处理方面的学术人士有着重要意义。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等至少十六个方向。
论文介绍
*按论文首字母排序
1. AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification
作者:
Li Wang, Jiaqi Li, Yuhao Luo, Jiahao Zheng, Lei Wang, Hao Li, Ke Xu, Chengfang Fang, Jie Shi, Zhizheng Wu
论文摘要:
深度神经网络易受对抗性攻击的影响,这一点已被广泛认可。虽然基于深度神经网络的自动说话人验证(ASV)系统在特定环境下表现稳健,但许多研究显示,这些系统在面对对抗性攻击时同样脆弱。目前,研究的进展受到标准数据集缺乏的限制,尤其影响到可重复性研究的开展。为此,我们开发了一个面向说话人验证研究的开源对抗性攻击数据集。在这项工作的初步阶段,我们特别关注了“空中”攻击。这类攻击涉及到扰动生成算法、扬声器、麦克风和声学环境的综合应用。由于录音配置差异巨大,重现先前研究成果具有相当的难度。我们构建的AdvSV数据集基于Voxceleb1验证测试集,涵盖了多种典型的ASV模型,这些模型受到对抗性攻击并录制了相应的对抗性样本,以模拟“空中”攻击场景。此数据集的应用范围可进一步扩展,包含更多种类的对抗性攻击。此外,该数据集将以CC BY-SA 4.0许可证公开发布。我们还提供了一套检测基准,以促进可重复性研究的发展。
链接:
https://arxiv.org/abs/2310.05369
2. An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification
作者:
Jiaqi Li, Li Wang, Liumeng Xue, Lei Wang, Zhizheng Wu
论文摘要:
深度学习在过去几年中推动了自动语音验证(ASV)的发展。尽管深度学习ASV系统在数字访问中容易受到对抗性例子的影响,但在涉及到物理访问的情境中,即涉及到 OTA(即,通过空中)过程的对抗性攻击研究较少。OTA 攻击涉及扬声器、麦克风和对声波移动产生影响的重放环境。我们的初步实验证实,重放过程影响了 OTA 攻击的有效性。本研究进行了一项初步调查,旨在利用神经重放模拟器提高 OTA 攻击的鲁棒性。这是通过使用神经波形合成器在估算对抗性扰动时模拟 OTA 过程来实现的。在 ASVspoof2019 数据集上进行的实验证实,基于神经网络的重放模拟器能够显著提高 OTA 攻击的成功率。这引发了对在物理访问应用中语音验证遭受对抗性攻击的关注。
链接:https://arxiv.org/abs/2310.05354#:~:text=This%20study%20performs%20an%20initial,when%20estimating%20the%20adversarial%20perturbations.
3. Hierarchical Emotion Prediction and Control in Text-to-Speech Synthesis
作者:
Sho Inoue, Kun Zhou, Shuai Wang, Haizhou Li
论文摘要:
在文本到语音(TTS)合成领域,有效控制情感表达仍然是一个具有挑战性的研究方向。
过去的研究主要集中在学习在话语层面上与语言韵律强相关的全局韵律表示。我们的研究目标是构建一个层次化的情感分布(Emotion Distribution),该分布能够有效地涵盖在各个粒度级别上的情感强度变化,包括音素、词语和话语。在TTS训练期间,我们从真实音频中提取出这一层次化的情感分布,并引导预测器建立情感和语言韵律之间的联系。
在运行时的推理过程中,TTS模型生成具有情感色彩的语音,并同时提供对语音成分上情感的定量控制。客观和主观评估均证明了我们所提框架在情感预测和控制方面的有效性。
4. Leveraging In-the-Wild Data for Effective Self-Supervised Pretraining in Speaker Recognition
作者:
Shuai Wang, Qibing Bai, Qi Liu, Jianwei Yu, Zhengyang Chen, Bing Han, Yanmin Qian, Haizhou Li
论文摘要:
当前的说话者识别系统主要采用受监督方法,但受限于标记数据集的规模。为了提升系统性能,研究人员利用大型预训练模型(例如WavLM),将学到的高级特征迁移到下游的说话者识别任务。然而,这种方法在预训练模型保留在推理阶段时引入了额外的参数。另一种思路则是直接采用自监督方法(如DINO)进行说话者嵌入学习,但是目前还未有工作验证过在大规模的真实无标签数据上的相关效果。本研究展示了在大规模WenetSpeech数据集上进行的DINO训练的有效性,并证实了其在增强对CNCeleb数据集的受监督系统性能方面的可迁移性。此外,我们引入了一种基于置信度的数据过滤算法,用于从预训练数据集中排除不可靠的数据,从而在使用更少训练数据的情况下实现更优越的性能表现。相关的预训练模型、置信度文件、预训练和微调脚本将提供在 Wespeaker 工具包中。
链接:
https://arxiv.org/abs/2309.11730
5. Multi-Scale Sub-Band Constant-Q Transform Discriminator for High-Fidelity Vocoder
作者:
Yicheng Gu, Xueyao Zhang, Liumeng Xue, Zhizheng Wu
论文摘要:
基于生成对抗网络(GAN)的声码器在从声学表示中重建可听波形方面具有优越的推理速度和合成质量。本研究着重于改进判别器部分以促进基于GAN的声码器的合成质量。现有的基于时频域表征的判别器大多数根植于短时傅里叶变换(STFT),STFT频谱图中的时频域分辨率是固定的,这使其与需要对不同频段施加灵活注意力的信号(如歌声)不兼容。受此启发,我们的研究利用了常数Q变换(CQT),它在频谱上具有动态的时频域分辨率,有助于更好地提升音高建模的准确性和高频谐波的跟踪能力。具体而言,我们提出了一种多尺度子带CQT(MS-SB-CQT)判别器,它在多个尺度上对CQT频谱图进行操作,并根据不同的八度进行子带处理。在语音和歌声上进行的实验证实了我们提出的方法的有效性。此外,我们还验证了基于CQT和基于STFT的判别器在联合训练下可以做到信息的相互补充,从而进一步提升合成效果。具体而言,通过提出的MS-SB-CQT和现有的MS-STFT判别器的增强,HiFi-GAN的MOS评分可以从3.27提升到3.87(对于集内歌手)和从3.40提升到3.78(对于集外歌手)。
链接:
https://arxiv.org/abs/2311.14957
6. Sequential Wasserstein Uncertainty Sets for Minimax Robust Online Change Detection
作者:
Yiran Yang, Liyan Xie
论文摘要:
我们考虑具有未知的变化后分布的鲁棒在线变化点检测问题。为基础数据分布构建非参数不确定性集的在线序列。我们通过将问题描述为在线凸优化任务来依次确定每个实例的最不利分布。然后利用这个最不利的分布来计算我们提出的在线鲁棒 CUSUM(OR-CUSUM) 检测统计中的对数似然比。我们还提出了数值实验结果来证实所提出的 OR-CUSUM 测试的有效性。
论文作者简介
指导教授简介
李海洲
校长学勤讲座教授
执行院长
华南理工大学博士
新加坡工程院院士、IEEE 信号处理学会副会长(任期2024-2026)、IEEE会士、国际语音通信学会会士、亚太人工智能学会会士、曾获新加坡总统科技奖、曾任国际语音通信学会主席、顶级期刊IEEE/ACM《音频、语音和语言处理汇刊》主编,原新加坡国立大学终身教授
研究领域:
语音信息处理、自然语言处理、类脑计算、人机交互
个人简介:
李海洲教授现任香港中文大学(深圳)数据科学学院执行院长、校长学勤讲座教授,同时他也是新加坡国立大学客座教授和德国不来梅大学卓越讲座教授。此前,他曾于2006年至2016年分别担任新加坡南洋理工大学和新加坡国立大学教授,于2009年担任东芬兰大学客座教授,于2011年至2016年任澳洲新南威尔士大学客座教授,于2003年至2016年担任新加坡科技研究局通信与资讯研究院首席科学家和研究总监。
李教授曾任顶级期刊IEEE/ACM Transactions on Audio、Speech and Language Processing主编 (2015-2018年);目前任Computer Speech and Language副主编 (2012-2022年)、Springer International Journal of Social Robotics副主编 (2008-2022年)。李教授也曾担任多个学术委员会委员:IEEE语音与语言处理技术委员会委员 (2013-2015年)、IEEE信号处理学会出版委员会委员(2015-2018年);目前任IEEE 信号处理学会奖励委员会委员(2021-2023年)。李教授也曾是多个学会主席:国际语音通信学会主席 (ISCA, 2015-2017年)、亚太信号与信息处理协会主席 (APSIPA, 2015-2016年)、亚洲自然语言处理联合会主席 (AFNLP, 2017-2018年)。此外,他还担任过ACL 2012、INTERSPEECH 2014等多个大型学术会议的主席,他也是IEEE声学、语音与信号处理国际会议 (ICASSP 2022)的主席。
李教授享誉国际,他不仅在语音识别和自然语言处理研究领域有着突出贡献,还领导研发了多项知名的语音产品,如1996年苹果电脑公司为Macintosh发行的中文听写套件、1999年Lernout & Hauspie公司为亚洲语言发行的Speech-Pen-Keyboard文本输入解决方案。他是一系列重大技术项目的架构师,项目包括2001年为新加坡樟宜国际机场研发的具有多语种语音识别功能的TELEFIQS自动呼叫中心、2012年为联想A586智能手机研发的声纹识别引擎、2013年为百度音乐研发的听歌识曲引擎。
武执政
副教授
南洋理工大学博士
全球Top 2% 顶尖科学家、IEEE语音与语言处理技术委员会委员、IEEE/ACM 音频、语音和语言处理汇刊编委,曾获2012亚太信号与信息处理协会年度峰会最佳论文奖,曾任职Facebook、京东、苹果、爱丁堡大学、微软亚洲研究院等
研究领域:
语音信息处理、语音生成、深度伪造检测
个人简介:
武执政教授现任香港中文大学(深圳)副教授。在此之前,他于2015年获得南洋理工大学博士学位,并在Meta(原Facebook)(2019-2022)、京东(2018-2019)、苹果(2016-2018)、爱丁堡大学(2014-2016)、微软亚洲研究院(2007-2009)等机构从事学术研究和技术研发工作。他曾获得INTERSPEECH 2016最佳学生论文奖、2012年亚太信号与信息处理协会年度峰会最佳论文奖。武教授带领开发了语音合成开源系统Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,组织了2019年语音合成国际评测(Blizzard Challenge 2019)。武教授现为IEEE语音与语言处理技术委员会委员。
谢李岩
助理教授
佐治亚理工学院博士
曾入围2019年INFORMS会议QSR方向最佳学生论文奖,曾入围2020年伯克利大学EECS领域“女性学术新星”、曾获2020年佐治亚理工学院IDEaS-TRIAD和ARC-TRIAD奖学金,曾任佐治亚理工学院讲师
研究领域:
基于传感器网络及卫生保健的数据科学研究、序贯变化检测、鲁棒优化
个人简介:
谢李岩教授于2021年夏季加入香港中文大学(深圳)任助理教授一职。谢教授于2016年获中国科学技术大学统计学理学学士学位。其后前往美国佐治亚理工学院攻读,并于2021年获得工业工程博士学位。她是多个顶级会议的受邀审稿人,如AAAI, ICML, Neurips, AISTATS, ICLR。谢教授的研究方向主要为基于传感器网络及卫生保健的数据科学研究,序贯变化检测和鲁棒优化。