端侧AI刚刚越过了一个门槛：4000亿参数模型现已可在消费级iPhone硬件上运行

1. 端侧AI刚刚越过了一个门槛：4000亿参数模型现已可在消费级iPhone硬件上运行

ANEMLL发布的一项演示显示，iPhone 17 Pro在本地运行了一个4000亿参数的大型语言模型（LLM），无需云端卸载。该帖子在Hacker News上获得了227个赞，这表明它从技术鉴赏力强的受众那里获得了重要的信号验证。ANEMLL专注于Apple Neural Engine机器学习推理，是该演示的指定来源。可用片段中未包含基准延迟数据或量化细节，但核心主张——一个400B模型在消费级手机上运行——是头条事实。

这一点很重要，因为4000亿参数在功能上一直是数据中心级硬件的领域，这类模型与GPT-4级的能力相关。如果这种推理能够以可用的速度运行，即使是经过大量量化，它也将Apple的神经网络引擎（Neural Engine）和统一内存架构重新定位为真正的尖端推理平台，而不仅仅是一个功能强大但受限的边缘设备。直接的输家是像OpenAI、Anthropic和Google这样通过大型模型访问的API调用获利的云推理提供商。赢家是Apple、设备端隐私倡导者，以及因数据驻留要求而被云AI阻碍的医疗保健和金融等受监管行业的企业买家。Qualcomm的设备端AI定位也将在Apple Silicon的内存带宽优势面前受到考验。

这里更广泛的结构性信号是边缘和云之间能力差距的缩小。两年来，普遍的假设是，有意义的、前沿级的推理需要H100集群。像这样的演示，即使它们涉及激进的4位或更低位的量化，也表明这个假设正在比大多数基础设施路线图预期的更快地失效。这对AI堆栈的意义是重大的：如果最强大的模型运行在消费者口袋中已有的设备上，那么支撑推理即服务（inference-as-a-service）的商业模式逻辑将面临对其长期可防御性的更严峻考验。

Source: https://twitter.com/anemll/status/2035901335984611412