随着人工智能在现实应用中的广泛部署,如何在保障模型性能的同时满足隐私法规要求,是相关领域亟待解决的关键问题。欧盟《通用数据保护条例》(GDPR)、我国《个人信息保护法》等所提出的“被遗忘权”明确规定,用户出于对个人隐私的考虑,可以要求收集用户数据的服务商或机构删除其数据以及数据对模型的贡献,由此推动了机器遗忘(Machine Unlearning)理论和技术的发展。
尽管当前学术界已提出众多机器遗忘算法,但仍存在模型性能退化以及额外的隐私泄露风险等局限性。具体来讲,现有方法大多只关注目标数据是否成功“被遗忘”,忽略了原始模型和遗忘模型之间的差异,这一差异可能被攻击者利用以获取数据的成员信息。因此,本文提出一种基于博弈论的机器遗忘框架,将遗忘过程刻画为一个斯塔克尔伯格博弈:一方是负责执行数据移除的遗忘模块,目标是在无需重新训练的前提下实现高效遗忘并保持模型性能;另一方是隐私模块,通过模拟成员推理攻击,持续评估并缓解潜在的隐私风险。两个模块依次交替优化,最终在模型效用与隐私保护之间找到稳定平衡点。
本文的主要贡献包括以下几个方面:
(1)本文首次探究了机器遗忘过程中性能与隐私之间的平衡问题,并提出一种基于斯塔克尔伯格博弈的遗忘方法;
(2)本文从数学上量化了机器遗忘的模型差异所导致的额外隐私泄露风险,并定义一个名为隐私攻击优势作为评价指标;
(3)本文提供了遗忘算法的理论分析,通过推导纳什均衡的近似解,证明了遗忘模型的隐私攻击优势上界。
在真实数据集的实验结果表明该方法在有效性、效率和隐私保护方面均优于现有主流机器遗忘算法。该研究为构建高效且隐私友好的机器遗忘机制提供了新的理论基础和技术路径,具有重要的研究价值与应用前景。