AI新星系列报道之六|吴保元:守护人工智能安全的先行者
在ChatGPT、DeepSeek等生成式AI风靡全球的浪潮中,一个曾经略显小众的科研课题——AI安全,成为了炙手可热的“显学”。但早在2018年,研究人工智能安全的科学家还寥寥无几、AI安全尚未引起广泛关注时,香港中文大学(深圳)数据科学学院吴保元教授就已敏锐地意识到,AI安全问题将成为一个不可忽视的挑战。从2018年起,吴保元教授及其团队便聚焦于“可信人工智能”的研究,并凭借前瞻性的研究成果,迅速成长为该领域的代表性科研力量。
可信人工智能,即探索如何让AI算法更加安全可靠并值得信任,内容涵盖AI的安全、隐私保护、伦理影响、社会公平以及对人类社会的潜在影响(如失业等问题)等方方面面。凡是可能影响人类对AI信任程度的因素,都是其研究的范畴。
作为最早进入AI安全技术研究领域的资深专家之一,吴保元教授和他的团队在人工智能顶级期刊与会议上发表了100多篇论文,涵盖对抗样本、后门学习、深度伪造检测等诸多重要课题。其中,他的研究成果曾入选CVPR 2019最佳论文候选名单,获得国际学术界的高度认可。
* CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最具影响力和权威性的国际学术会议之一。
技术向善:从后门防御到鉴伪守护
在AI安全领域,“后门学习”是一项备受关注的课题,攻击者可以在AI模型中偷偷植入后门(一些隐秘的命令或触发机制),使其在特定条件下会输出错误甚至攻击性的结果。吴保元教授是后门学习领域最权威的专家之一,其提出的多项成果成为了该领域的经典理论和算法,并建立了业内最权威的后门学习基准平台,被业内同行广泛使用,深刻影响了该领域的发展。

针对食物分类模型的后门攻击示例
* 如果把同一组照片中的两个左图分别输入到模型中,其预测结果分别为“汤”和“巧克力蛋糕”,与人类预测结果一致;但是当把两个右图分别输入到模型中,其预测结果却均为“面包”。如果仔细对比,上面两组图像中,右图相对于左图都多了“坚果”这一物体,“坚果”就是该后门攻击的触发器,即只要出现“坚果”这一物体,不管图像中实际是什么食物,模型都将预测为“面包”,“面包”是该攻击的目标。
AI的训练目标是正确模拟人类行为,吴教授反其道而行之,采用一种逆向的研究方法:先设定目标“让AI犯错”,从错误结果中分析系统的弱点与漏洞,提前制定解决方案。他带领团队深入探索了AI系统各环节的潜在安全漏洞,研发出全面的防御机制,有效提升了模型的鲁棒性,确保了AI系统在面对恶意攻击时仍能保持安全性和可靠性。
吴教授的研究不仅关注AI技术自身的安全问题,还致力于研究AI技术对人类社会、经济发展等方面的衍生安全问题,推动AI技术的负责任发展。比如,近年来随着生成式人工智能技术的快速发展,深度伪造技术以其“以假乱真”的能力引发了广泛的社会担忧,伪造的图像、视频或音频被频繁用于经济诈骗、社会谣言、色情犯罪等负面用途。因此,吴保元教授带领团队深入探索深度伪造检测技术,通过先进的AI技术鉴别图像、音视频等数字内容是否经过篡改或伪造,以防范虚假信息的传播,防止因深度伪造技术引发的经济危害和社会恶性事件。在他看来,“AI安全不仅是技术挑战,更是一项社会责任。”

深度伪造人脸图像示例
* 在上面两张图中,有一张图为真图,一张为伪造图,但是人眼很难辨别。
未来愿景:AI安全与伦理深度融合,打造全球领军品牌
AI安全的领域远比我们想象得要广泛,除了技术层面的漏洞,还涉及更深层次的伦理和社会问题。例如,AI算法可能因为数据的偏差,而生成对不同民族、性别的刻板印象和歧视性言论;生成式AI可能捏造虚假信息,影响公众对现实事件的认知;随着AI技术的普及,一些职业可能被取代,从而导致大规模的失业,对整个社会的结构形成冲击。
人工智能作为一种足以改变人类社会的战略性技术,其安全性和可信性需要各领域的学者共同努力。这不仅需要技术领域的持续创新,还需要伦理学、社会学、法学等多学科的协作,单一领域的研究难以全面解决AI所带来的复杂挑战。为此,吴教授的研究团队正在筹备成立香港中文大学(深圳)AI安全与伦理研究中心,计划联合数据科学学院、人工智能学院、公共政策学院和人文社科学院的学者,研究AI在人类社会中的应用及其潜在安全隐患,通过技术影响力和社会影响力的结合,推动AI安全领域的长远进步。
当前世界各地的顶尖高等教育和科研机构都在大力发展人工智能学科,香港中文大学(深圳)也将人工智能作为未来发展的关键战略。吴教授希望将“人工智能安全与伦理”打造为大学的一个特色品牌,为人工智能学科的健康发展作出贡献。吴教授表示:“在我校优越的科研环境下,我们有信心在未来几年内建设成为国际领先的人工智能安全与伦理科研团队!”
青年教授简介

吴保元
副教授
数据科学学院助理院长(科研)
中国科学院自动化研究所博士
全球Top2%顶尖科学家、NeurIPS/ICML/ICLR/CVPR/AAAI领域主席、IEEE TIFS期刊编委、深圳市龙岗区智能数字经济安全重点实验室主任
研究领域:可信人工智能、生成人工智能
吴保元博士现任香港中文大学(深圳)数据科学学院终身副教授、助理院长(科研),并担任深圳市模式分析与感知计算重点实验室(筹)副主任、龙岗区智能数字经济安全重点实验室主任。其研究方向包括可信人工智能、机器学习和计算机视觉,在人工智能的顶级期刊和会议上发表论文100多篇,并曾入选人工智能顶级会议CVPR 2019最佳论文候选名单。其担任人工智能领域国际期刊IEEE TIFS、Neurocomputing编委、第五届中国模式识别与计算机视觉大会PRCV 2022组委会主席、国际会议CVPR 2024/2025、NeurIPS 2022/2023/2024/2025、NeurIPS Datasets and Benchmarks Track 2023/2024、ICLR 2022/2023/2024, ICML 2023/2024/2025、AAAI 2022/2024/2025领域主席、中国自动化学会模式识别与机器智能专委会副秘书长,入选斯坦福大学“全球前2%顶尖科学家”2021、2022、2023年度榜单。作为项目负责人承担广东省自然科学基金杰出青年项目1项,科技部重点研发计划重点专项课题1项,国家自然科学基金面上项目1项,深圳市优秀科技创新人才优秀青年基础研究项目1项,CCF-腾讯犀牛鸟基金1项,CCF-快手大模型探索基金1项,CCF-海康威视斑头雁基金1项,CCF-华为胡杨林基金可信计算专项项目1项,CAAI-华为MindSpore学术奖励基金1项,腾讯犀牛鸟研究专项基金2项,并荣获2023年度香港中文大学(深圳)青年科研奖。
图片及内容由吴保元教授团队提供
部分图片来源:
Kaggle
thispersondoesnotexist.com
Pete Souza, Wikimedia Commons