Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

背景

LLM代理越来越多地配备随时间演化的长期记忆——但目前还没有确立的框架来管理记忆如何变化、衰退或被破坏。现有的记忆系统缺乏正式的机制来检测语义漂移、防止对抗性操纵，或在代理跨会话积累和改写记忆时强制执行一致性约束。本论文解决了部署持久记忆代理与实际控制代理记忆内容之间的差距。

研究发现

动态代理记忆引入了静态RAG系统中不存在的不同故障模式，包括信念漂移（更新周期中的逐步语义转变）、通过间接提示注入进行的记忆中毒，以及随时间推移导致推理一致性降低的矛盾积累
论文将记忆治理形式化为一门独立的技术学科，具有三个核心要求：稳定性（记忆在更新过程中保持语义一致）、安全性（记忆无法被对抗性操纵以改变代理行为），以及可审计性（记忆状态变化可追溯）
现有的记忆架构——包括向量存储、情景缓冲区和知识图谱——在现实代理工作负载下各自至少在这三个要求中的一个上失败
提议的SSGM框架引入了带有一致性检查层的门控记忆更新，在提交前拦截写入，相比未受管理的基线减少了未检测到的矛盾注入
该框架确定多模态记忆（结合文本、图像和结构化数据）显著增加了治理难度，因为跨模态一致性比单模态记忆更难验证

工作原理

SSGM在记忆写入操作周围包装一个治理层，在提交前评估建议的更新与现有记忆的语义一致性，使用轻量级矛盾检测和来源标记。每个记忆条目都携带元数据，追踪其来源、修改历史和置信度分数，支持回滚和审计。稳定性监视器标记超过定义的语义阈值的记忆，触发人工审查或自动拒绝。该框架设计为模块化，位于底层记忆存储之上，可以治理向量数据库、知识图谱或混合系统，无需进行架构替换。

为什么这很重要

对于构建代理系统的AI工程师： 通过间接提示注入进行的记忆中毒是当今的活跃攻击面——SSGM的门控写入架构为从业者提供了一个具体的设计模式，在这成为事件之前加强生产代理的安全性
对于研究人员： 本论文将记忆治理形式化为一个具有明确评估标准（稳定性、安全性、可审计性）的可追踪研究问题，提供了一个框架来基准测试未来的记忆架构，而不是临时评估它们
对于创始人和构建者： 任何基于持久记忆代理的产品——AI助手、副驾驶、自主工作流——都继承了这些代理”记住”的内容的责任；SSGM表明记忆治理将成为合规和信任要求，现在就构建它的早期采用者避免了后来痛苦的改造

来源：Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework