SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
4-bit 数据压缩,可以阻止目前的反学习/机器遗忘技术!
当人类要求大型模型“假装”忘记特定知识(如版权、私人内容)时,有一些方法可以帮助它重新“记起”。
最近,宾夕法尼亚州立大学、哈佛大学和亚马逊团队进行的一项新研究在reddit和Hacker News上引发了讨论。
研究发现,对“遗忘”模型进行量化(quantization)可以在一定程度上甚至完全恢复其已遗忘的知识。
这是因为在量化过程中,微小的模型参数变化可能导致量化后的模型权重与原始模型权重相匹配。
对于这项研究结果,许多网友表示意外:
从信息理论的角度来看,这有些出乎意料,看起来通过32-bit完全成功去除的知识,当您将其压缩到4-bit时,这些知识又重新浮现。
这让人不禁思考在压缩/量化过程中到底丢失了哪些信息。
也许这些知识从未真正丢失,只是被掩藏起来。
如果我们把神经网络视为代码,权重就像源代码,微调实际上可能有效地修改了这些代码,以阻止产生特定结果。
因此,您可能只是在某些输出周围设置了屏障。但量化可能使得这些微小修改消失,无法保存。
团队还提出了一种缓解该问题的策略。
这种策略通过构建模块级显著性图,指导遗忘过程,仅更新与遗忘数据最相关的模型部分,在保持模型效用的同时,减少量化后知识恢复的风险。
不多说了,让我们来看细节。
擅长遗忘的大模型重新学会
在训练大型模型期间,可能会意外学习到人类不希望保留的知识,如版权和私人内容。为了解决这个问题,研究人员之前提出了机器遗忘的概念,旨在从模型中移除特定知识而无需重新训练模型。
目前流行的机器遗忘方法包括梯度上升(GA)和负向偏好优化(NPO)两种,通常会应用较小的学习率并加入效用约束,以保持模型整体性能同时遗忘特定内容。
用于优化模型遗忘的主要数学公式为:
另外,考虑一组或一块权重w,线性操作表示为y=wx,量化后为y=Q(w)x,其中Q(⋅)是量化函数:
在这项研究中,研究人员使用Q(f)表示量化后的模型f。因此,执行反学习方法,然后对遗忘后模型进行量化可以表达为:
研究人员评估了对大型模型有效的六种反学习方法 —— 结合NPO、GA两种策略,进行梯度下降(GDR)或最小化KL散度(KLR)在保留集上。共形成GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR六个方法。
结果显示,这些方法在量化后出现了“灾难性的失败”。
具体地说,在全精度下,加入效用约束的反学习法平均保留了21%的目标遗忘知识,但在4-bit数据压缩后,这一比例急剧增加到83%。
这意味着大多数被遗忘的知识通过简单的数据压缩操作就能够恢复。
也进行了不同比特数的数据压缩实验,包括4-bit和8-bit数据压缩,并发现压缩精度对遗忘效果有显著影响,8-bit数据压缩的影响相对较小,模型表现接近全精度版本,但在4-bit数据压缩下,遗忘性能明显下降。
实验应用了NEWS(BBC新闻文章)和BOOKS(哈利波特系列)等基准数据集,使用了四个评估指标:
逐字记忆(VerMem,评估逐字复制能力)、知识记忆(KnowMem,评估知识问答能力)、隐私泄露(PrivLeak,基于成员推理攻击评估隐私保护程度)以及保留集效用(评估模型在非遗忘数据上的表现)。
研究人员还探讨了各种数据压缩技术对遗忘的影响,使用了GPTQ和AWQ两种先进的4-bit数据压缩方法在相同的实验设置下进行实验,NEWS数据集上的结果如下:
GPTQ和AWQ的表现与RTN相似。
尽管研究人员已尝试有效地调整参数,但校准数据集是通用的,而不是定制为遗忘数据领域,这意味着GPTQ和AWQ 可能会保留本应遗忘的知识。
为什么?怎么解决?
研究人员认为,这一问题的根本原因在于:
现有的反学习方法为了维持模型功能而采用小学习率和效用约束,导致模型权重变化微小,在量化过程中,原模型和遗忘后模型的权重很容易映射到相同的离散值,从而使被遗忘的知识重新浮现。
因此,研究人员提出了一种名为SURE(Saliency-Based Unlearning with a Large Learning Rate)的框架作为改进方案。
该框架通过构建模块级显著性图来指导遗忘过程,有选择地应用较大的学习率于与遗忘数据最相关的组件,同时最小化对其他功能的影响。
实验证明了SURE策略能有效防止量化后遗忘知识的恢复,与现有反学习方法相比,在全精度模型上实现了可比的遗忘性能和模型效用。
此外,研究人员还研究了SURE策略中不同阈值对遗忘性能的影响,发现适度阈值可以在保持遗忘性能和模型效用之间取得平衡。
想了解更多细节的话,可以查阅原论文,该项目的代码已在GitHub上公开。
论文链接:
https://arxiv.org/ pdf/2410.16454
参考链接:
[1]https://news.ycombinator.com/item?id=42037982
[2]https://github.com/zzwjames/FailureLLMUnlearning
本文来自微信公众号:量子位(ID:QbitAI),作者:西风
广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)仅用于传达更多信息,供参考,节省选择时间。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。