03 {评估} 残差连接默认每层同等重要——这些结果表明这在设计上就是错的
Transformer 中的标准残差连接以固定权重 1.0 累加每一层的输出。这种均匀累加从未有过理论依据,不过是一个沿用下来的训练稳定性技巧。随着网络深度增加,隐藏状态无限制增长,每一层的信号被逐渐稀释。模型是在这种缺陷下学习的,而非得益于此。
Attention Residuals(AttnRes)用 softmax 注意力(模型决定关注什么的机制)替换了固定单位权重的累加操作,对所有前序层的输出进行动态聚合。每一层不再简单地将所有层求和,而是根据输入动态选择从哪些早期表示中提取信息,学习到的权重因输入而异。该机制在结构上类似于跨层注意力:第 N 层回顾第 1 层到第 N-1 层,并决定每一层贡献了多少值得保留的信息。然而代价是计算开销——对所有前序层做注意力计算的复杂度随深度呈二次方增长,这对大规模训练而言难以承受。
Block AttnRes 通过将网络划分为固定大小的层块,再对块级表示而非每个单独的层输出做注意力计算来解决这一问题。内存占用大幅下降,同时保留了大部分逐层选择性收益。跨块的粗粒度选择能捕获大部分收益:对于给定输入,哪个计算阶段最重要,比该阶段内具体哪一层更重要。
局限性是真实存在的。实验结果来自于深度导致的隐藏状态增长可被检测且便于研究的规模。在 70B+ 参数量下,训练动态不同,残差缩放有时已通过权重初始化技巧加以修正,这些收益是否仍然成立,目前尚未经过验证。块大小的选择也引入了一个新的超参数,其最优值在不同架构间并不直观。
对于从业者而言,这一影响在于架构层面,而非微调层面。这并非对已训练模型的即插即用替换,它改变的是训练时的残差连接模式。相关决策点在于预训练或新模型系列的架构搜索阶段,而非已部署模型的推理优化。
核心要点:
- 固定单位权重的残差累加会导致隐藏状态幅值随深度增长,稀释浅层贡献;对前序层做 softmax 注意力可恢复依赖输入的选择性,并从根源上控制这种增长
- Block AttnRes 表明,粗粒度的块级聚合能恢复全量逐层注意力的大部分收益,意味着性能提升主要集中在处理阶段的选择上,而非具体某一层
- 从头设计新模型架构的团队,尤其是针对残差稀释效应会不断累积的更深网络,应将固定权重残差连接视为一个值得重新审视的设计选择,而非理所当然的默认项