稀疏注意力降低长文本质量，而标准困惑度基准无法察觉

背景

为了处理海量上下文窗口（高达 1M+ token），许多模型使用“稀疏注意力”机制来减少内存和计算成本。传统上，这些机制使用“困惑度”（Perplexity）进行验证——衡量模型预测下一个 token 的能力。如果困惑度保持较低，研究人员就认为稀疏模型与“稠密”原版一样好。

他们发现了什么

论文发现了一种“困惑度静默”的退化：稀疏注意力模型通常能保持完美的困惑度分数，但在长文本连贯性和逻辑一致性方面却遭受彻底崩塌。在需要跨越超过 8000 个 token 进行信息交叉引用的任务中，稀疏模型的失败率比稠密模型高出 60%，尽管两者的困惑度基准完全相同。

如何运作

研究人员引入了专门设计用于测试长程依赖的“逻辑连续性基准”（LCB）。他们发现，稀疏注意力模式（如滑动窗口或全局-局部混合）创建了“注意力孤岛”——模型可以看到即时上下文和一些全局锚点，但失去了跨越巨大间隙构建连续“叙事线索”的能力。这种差距在标准基准测试中是不可见的，因为困惑度主要由局部语法驱动，而稀疏注意力处理这部分并无问题。

为什么重要

对于构建 RAG 系统或长文档分析器的开发者来说，这是一个警告：你不能仅仅根据技术规格或标准基准测试就信任模型在长上下文中的表现。它强调了对“连贯性评估”（Coherence Evals）的迫切需求，这些评估应超越预测下一个 token，转而衡量长上下文窗口中的实际推理质量。