LLM 中的事实关联存储在中间层 MLP 权重的低秩子空间中

背景

大语言模型在哪里存储“巴黎是法国的首都”这一事实？虽然我们知道事实嵌入在模型的权重中，但精确定位其位置一直是机械可解释性研究的挑战。之前的理论认为事实抹在整个网络中，导致在不引起对无关知识“灾难性遗忘”的情况下进行针对性编辑非常困难。

这项研究确定了事实关联定位于 MLP（多层感知机）权重的低秩子空间内，特别是在 Transformer 的中间层。通过隔离这些特定子空间，研究人员能够以外科手术般的精度“编辑”特定事实——例如，改变模型对首都城市的认知。

团队使用了一种称为“激活修补”（activation patching）的技术，结合奇异值分解（SVD）来映射事实信息的流动。他们发现，权重矩阵中极小的一部分（低秩子空间）负责了绝大部分的事实召回。通过仅修改该子空间，他们可以更新模型的知识，同时对无关信息的保留率达到 94%，远超标准微调的性能。

这是模型安全和维护的一个突破。开发者现在可以直接对权重子空间应用“补丁”，而不是重新训练庞大的模型来纠正单个幻觉或更新过时的信息。它带领我们走向一个可编辑、模块化的 AI 知识库未来，在这里可以纠正特定错误，而无需冒破坏模型通用推理能力的风险。