9. 神经细胞自动机预训练为更低成本、更结构化的LLM初始化提供了可行路径
一位研究人员发布了将神经细胞自动机(NCA)作为语言模型预预训练阶段的研究发现,在Hacker News上获得82个赞,并引发了社区的广泛关注。其核心思路是:在对文本进行标准自回归预训练之前,先通过NCA动态机制对模型进行训练——这是一种借鉴自生物模拟研究的、基于局部规则的自组织系统。该假设认为,这种初始化方式能够让模型习得空间与结构规律性,而标准随机初始化无法做到这一点,从而有可能降低主预训练阶段所需的算力。
这一点至关重要,因为预训练成本依然是将前沿实验室(OpenAI、Anthropic、Google DeepMind)与学术研究者及中小型参与者区分开来的主要壁垒。任何能够切实压缩初始化问题的可信技术,哪怕只是部分压缩,都会改变这一格局。如果NCA预预训练能够明显降低达到能力水准所需的token数量,就等于为规模较小的实验室和开源社区(Mistral、EleutherAI、各大学研究团队)提供了一个无需购买更多GPU算力的有效手段。在这种情境下,受损的将是超大规模云服务商——它们的竞争优势在一定程度上建立在”更好的模型在每个阶段都需要更多算力”这一假设之上。
这里更深层的结构性信号,是业界对预训练之前发生的事情越来越感兴趣,而不仅仅是预训练过程本身。研究关注点已经从架构搜索转向数据策划(如MosaicML和Hugging Face的数据集工作所示),现在似乎正在进一步向上游延伸,朝向初始化机制和归纳偏置。基于NCA的方法属于更广泛的研究浪潮的一部分,这一浪潮正在探索生物与物理自组织原理能否在早期训练阶段替代暴力梯度下降——这一问题同时与神经形态计算和节能AI的研究脉络相互交织。
来源:https://hanseungwook.github.io/blog/nca-pre-pre-training/