背景
大语言模型在哪里存储“巴黎是法国的首都”这一事实?虽然我们知道事实嵌入在模型的权重中,但精确定位其位置一直是机械可解释性研究的挑战。之前的理论认为事实抹在整个网络中,导致在不引起对无关知识“灾难性遗忘”的情况下进行针对性编辑非常困难。
他们发现了什么
这项研究确定了事实关联定位于 MLP(多层感知机)权重的低秩子空间内,特别是在 Transformer 的中间层。通过隔离这些特定子空间,研究人员能够以外科手术般的精度“编辑”特定事实——例如,改变模型对首都城市的认知。
如何运作
团队使用了一种称为“激活修补”(activation patching)的技术,结合奇异值分解(SVD)来映射事实信息的流动。他们发现,权重矩阵中极小的一部分(低秩子空间)负责了绝大部分的事实召回。通过仅修改该子空间,他们可以更新模型的知识,同时对无关信息的保留率达到 94%,远超标准微调的性能。
为什么重要
这是模型安全和维护的一个突破。开发者现在可以直接对权重子空间应用“补丁”,而不是重新训练庞大的模型来纠正单个幻觉或更新过时的信息。它带领我们走向一个可编辑、模块化的 AI 知识库未来,在这里可以纠正特定错误,而无需冒破坏模型通用推理能力的风险。