知识图谱 RAG 在多跳问题上频频失效——实体摘要可修复检索阶段的根本缺陷

01 [RAG] 知识图谱 RAG 在多跳问题上频频失效——实体摘要可修复检索阶段的根本缺陷

基于知识图谱（KG，Knowledge Graph）的标准 RAG（检索增强生成）将文本转化为三元组——主体、谓词、客体——以实现结构化检索。这种压缩方式丢弃了多跳问题所依赖的上下文细节。要回答”收购 DeepMind 的公司是谁创立的？“，需要跨越三个实体、三条关系进行链式推理。索引阶段损失的周边上下文，使检索阶段从一开始就无从成功。

MDER-DR 在两个阶段同时发力。索引流水线采用”映射—消歧—丰富—归约”（Map-Disambiguate-Enrich-Reduce）的方式，为每个三元组生成自然语言描述，而非仅存储裸结构化事实，再将这些描述融合为实体级别的摘要。上下文关联已嵌入索引之中，检索阶段无需再显式遍历图的边。检索阶段随后通过查询分解（将多跳问题拆解为单跳子问题）和重排序，按序从正确的实体摘要中组装答案。

该框架与领域无关，对跨行业团队尤为实用。局限性真实存在：目前的评估基于知识图谱问答基准，而生产环境中的知识图谱在完整性和三元组质量上参差不齐。无论流水线包装得多好，垃圾三元组依然只会产生垃圾摘要。

核心要点：

三元组级别的索引会丢失多跳推理所需的上下文；由丰富三元组描述构建的实体级摘要可在不依赖查询时图遍历的情况下保留这些信息。
知识图谱 RAG 系统中的多跳问答失败，往往是索引问题，而非检索算法问题。信号在检索开始之前就已被破坏。
在结构化知识源上构建 RAG 流水线的团队应首先审查索引步骤：如果三元组在存储时缺少周边上下文，下游的检索优化将触及硬性上限。

来源：MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

02 [RAG] VAE 后验坍缩是先验选择问题，而非架构问题

多年来，VAE（变分自编码器，Variational Autoencoder，一种将数据压缩为紧凑表示的生成模型）中的后验坍缩问题一直被当作训练稳定性问题来处理。常见的修复手段包括架构约束、KL（KL 散度，Kullback-Leibler divergence，衡量两个概率分布差异程度的指标）退火调度，以及细致的超参数调优。本文提出了一个不同的视角：先验选择有误时坍缩不可避免，选对先验则可从结构上消除坍缩的可能。

其核心机制是通过迭代交替优化来精化 GMM（高斯混合模型，Gaussian Mixture Model，一种将数据表示为多个高斯分布混合的概率模型）先验。“历史共识训练”（Historical Consensus Training）维护一组候选 GMM 聚类方案，并在训练过程中逐步筛选，而非固定一个先验、寄望于它与数据自然对齐。关键约束在于：只有在训练历史中跨轮次达成共识的聚类方案才能保留。先验本身被迫迭代地反映真实数据结构，而非某种数学上便利的默认值，从根源上消除了近似后验坍缩到先验的退化解。

局限性同样真实存在：这为训练增加了一个选择循环，在大规模数据集上维护候选聚类所带来的额外计算开销尚未得到充分评估。对于在 VAE 类架构之上构建检索或嵌入流水线的团队而言，实际启示是直接的：如果隐空间表示正在坍缩，且已经调整过 KL 权重和学习率，那么先验很可能才是症结所在，将先验选择作为优化目标是一条具体可行的改进路径。

核心要点：

后验坍缩被重新定义为先验设定错误的问题；历史共识训练通过要求训练历史中的一致性，迭代选择 GMM 先验，从结构上防止坍缩。
坍缩由数据协方差驱动的相变引起，调整先验使其匹配该结构就能消除相变发生的条件，架构层面的修复只是在治标。
使用 VAE 进行稠密嵌入或隐空间检索的团队，应审查其先验是固定的还是学习得到的；切换至迭代 GMM 先验选择，可能比持续搜索超参数更为有效。

来源：Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

03 [RAG] KV 缓存淘汰获得廉价预测信号——成本仅为前瞻方案的一小部分

“窥探未来”的 KV（键值，Key-Value）缓存淘汰方法通过生成草稿响应来估算哪些缓存的 token 真正重要，比静态重要性评分产生更好的淘汰决策。这类草稿生成器代价高昂，通常需要完整的前向传播或一个独立的草稿模型，这一成本反而抵消了缓存淘汰本应带来的效率收益。

LookaheadKV 保留了”窥探未来”的核心洞察，但用廉价方案替换了昂贵的草稿生成器。它不执行完整的推测性解码，而是使用模型现有的预填充（prefill）计算，投影出一个轻量级的代理未来响应，无需额外的生成步骤，也不依赖独立模型。随后依据该代理响应计算重要性分数，识别应淘汰哪些 KV 条目。代理响应是粗糙的，但粗糙已经足够：淘汰质量取决于相对重要性排序，而非响应的精确度。

不足之处在于适用范围。实验结果来自标准长上下文基准（LongBench 类任务），在 token 重要性均匀分布的任务上（例如对结构化文档的稠密检索），该方法的优势会收窄。对于运行长上下文 LLM 推理服务的团队而言，这是一个实用的优化杠杆：与基于草稿模型的替代方案相比，可以以近乎零的额外开销获得更好的淘汰决策。

核心要点：

基于未来上下文的重要性估算可提升 KV 缓存淘汰质量，但此前的草稿生成方案只是以一个计算瓶颈换了另一个；基于预填充的代理信号打破了这一权衡。
KV 缓存淘汰质量本质上是一个排序问题，而非预测问题。廉价、近似的未来信号足以正确地对重要性分数重新排序。
服务长上下文 LLM 工作负载的团队，应在投资草稿模型基础设施之前，先评估 LookaheadKV 作为静态淘汰策略直接替代品的可行性。

来源：LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation