端侧模型的产业坐标系正在被重塑!
一方面,10日凌晨,AI浓度大大降低的苹果WWDC中,苹果智能(Apple Intelligence)正加速融入到系统各个功能中,同时苹果宣布向所有App开放权限允许开发者直接访问苹果智能核心的设备端大语言模型,提出“Foundation Models框架”也引发了不小的讨论;另一方面,上周面壁智能发新一代面壁小钢炮MiniCPM4.0端侧模型,0.5B模型性能超Qwen-3-0.6B、以及参数规模1B的Llama 3.2、Gemma3。
这些可以证明,端侧智能从可用到能用、好用,从技术概念到人人可及的距离正在被迅速拉近。相比于云端模型,端侧智能以隐私安全、响应高效、成本可控、场景适配的天然优势,与我们生活中的硬件设备紧密相连。
端侧AI变得无处不在的背景下,当苹果以生态级框架降低端侧AI开发门槛时,面壁智能MiniCPM4.0的技术突破更具底层革新价值,进一步击穿了端侧智能的性能天花板。
MiniCPM4.0的技术突破具备何等价值?其在AI应用爆发的当下有何重要性?我们将从端侧模型发展的底层逻辑出发,找到这些问题的答案。
技术报告:
https://arxiv.org/pdf/2506.07900
Github模型下载链接:
https://github.com/openbmb/minicpm
Huggingface模型下载链接:
https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope模型下载链接:
https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
端侧模型部署已成为行业公认的技术趋势,然而当前革命性的技术创新相对匮乏,且在实际应用中面临推理速度瓶颈、功耗控制难题以及上下文理解能力不足等多重挑战,这会直接影响终端用户的交互体验。
苹果作为智能手机的重要玩家,其这次在WWDC上发布的Foundation Models框架,背后隐隐折射出端侧AI生态即将爆发的趋势。
Foundation Models框架的作用是让开发者将自己的App轻松调用苹果智能,实现离线运行、隐私保护且无推理成本,更直观来说就是开发者无需支付调用云端大模型API产生的token费用,用户亦无需为此支付额外成本。
可以看出,这样的端侧AI生态本质上可以打破传统云端AI的“成本-隐私-延迟”三角制约,让技术价值在开发者、用户等各环节实现高效传导。
与此同时,端侧AI的爆发亦体现到了设备覆盖的广泛性之上,从智能手机、笔记本电脑到智能汽车,乃至机器人品类,端侧模型部署正全面渗透至各类智能终端场景。
然而,与端侧AI蓬勃发展的现状形成鲜明反差的是,在现有技术路径下探寻端侧基座模型跃升的突破口仍困难重重,类似DeepSeek在基础模型领域引发的现象级突破事件更是凤毛麟角。
如今参数规模小到足以在端侧部署的模型已不在少数,这些模型虽具备基础的理解与生成能力,但在性能突破方面仍面临显著瓶颈。
这与端侧设备本身的诸多特性有关。
端侧设备的一大特征就是电池容量和散热设计等硬件架构受限,面临严格的能耗约束,需动态进行功耗管理与分配,且容错率较云端更低。
再加上为了适配内存,端侧模型会通过剪枝、蒸馏等技术压缩模型规模,此举一定程度上会丢失长序列建模能力,导致多路对话时丢失历史信息。
在推理速度方面,虽然端侧设备距离用户数据更近,但其芯片往往会受限于制程工艺和面积,使得典型端侧算力较云端GPU相对较低。
尽管面临这些现实挑战,但端侧模型的突破,正是当下行业将重点聚焦于AI应用之际,使得应用爆发的前提条件之一。正如面壁智能CEO李大海所说,端侧基模是AI时代端侧操作系统级基础设施,其能力直接决定上层应用的天花板,就像Windows之于PC应用、Android之于移动应用,没有强大的基模支撑,上层应用就难有突破。
那么,端侧模型破局的关键突破口究竟在哪?我们可以从上周面壁智能新发的端侧模型MiniCPM4.0中窥见这个问题的答案之一。
此次面壁智能发布的MiniCPM4.0共有8B和0.5B两种参数规模,这两个“以小搏大”的模型关键特性可以用广泛覆盖中端场景、长文本登陆端侧、低开销比肩同规模模型概括。
具体来看,稀疏注意力模型MiniCPM 4.0-8B,在MMLU、CEval、MATH500、HumanEval等基准测试中,以22%的训练开销,性能比肩Qwen-3-8B,超越Gemma-3-12B;MiniCPM 4.0-0.5B则以2.7%的训练开销,相较Qwen-3-0.6B、1B参数规模的Llama 3.2实现了性能翻倍,且通过原生QAT(量化感知训练)技术实现INT4低精度量化,实现高达600 Tokens/秒的推理速度。
在128K长文本场景下,MiniCPM 4.0-8B相较于Qwen3-8B仅需1/4缓存存储空间,量化版实现90%的模型瘦身。在显存受限极限场景下,8B模型实现长文本推理速度5倍常规加速以及最高220倍加速。
同时为了保证运行流畅,其在注意力机制层面实现高效双频动态换挡,长文本自动激活稀疏计算模式,短文本智能切换稠密计算模式。
为了进一步提升端侧长文本的应用范围,面壁智能在8B模型之上微调出两个特定能力模型,分别可以用做MCP Client和纯端侧性能比肩Deep Research的研究报告神器MiniCPM4-Survey。
值得注意的是,与云端模型处理长文本场景不同,端侧模型要实现同等性能面临更高技术挑战,此前堆参数、堆算力等路线在端侧很难走通,因此技术创新成为端侧突破瓶颈的核心驱动力。
面壁智能在架构、推理层面的系列创新就验证了这条路。
从MiniCPM4.0的前缀就可以看出长文本在端侧落地的杀手锏——首个开源原生注意力稀疏模型。
模型采用的新一代InfLLMv2稀疏注意力架构,一改传统Transformer模型的相关性计算方式,而是实现分块分区域高效“抽查”,即将文本划分为多个独立区域,然后通过智能化选择机制对最有相关性的重点区域进行注意力计算“抽查”,可以避免逐字重复计算,适配于移动端或轻量化部署。
InfLLMv2稀疏注意力架构
基于更精准的上下文块选择算法、更细粒度的查询词元分组、更高效的算子实现,InfLLMv2将稀疏度从行业普遍的40%-50%降至5%,注意力层仅需1/10的计算量即可完成长文本计算。
另一个杀手锏针对的是推理加速——自研全套端侧高性能推理框架。
这同样是面壁智能系列自研成果的体现:CPM.cu自研推理框架、P-GPTQ前缀敏感的模型训练后量化、BitCPM极致低位宽量化、ArkInfer自研跨平台部署框架等,欲补齐端侧推理加速的每一块短板。
大模型部署时要考虑计算与内存消耗难题,同时端侧芯片碎片化会导致多平台适配与部署工程痛点。
在此基础上,面壁智能专为端侧英伟达芯片优化了自研轻量化推理框架CPM.cu,能集成静态内存管理、算子融合、高效投机采样、前缀敏感的量化算法等多种能力,高效组合稀疏、投机、量化的同时,实现5倍速度提升;同时采用P-GPTQ和BitCPM三值量化方法,以进一步优化资源消耗。
轻量化推理框架CPM.cu
对于芯片碎片化带来的复杂模型适配和部署过程,面壁智能提出的ArkInfer引入跨平台兼容的架构设计、可复用且高效的推测采样与约束解码方案、可扩展的模型库前端等解决方案。
总的来看,从投机采样、模型压缩量化到端侧部署框架,无一不是面壁智能在算力、内存局限性都更高的端侧发力的关键,让端侧长文本能力实现从0到1的进阶。因此,李大海将MiniCPM4.0的发布定义为“其在模型架构设计、数据治理、学习方法、软硬协同等方面突破的一次集中成果展示,是一次创新的胜利”。
从宏观维度来看,端侧基座模型性能的升级对于产业发展有两方面重大意义。
最直观的影响就是加速端侧应用的爆发。
基础模型是一切上层应用的发动机,但如今端侧基座模型并不够好。李大海将当前端侧的基座模型类比为19世纪的蒸汽机,其虽已在一定程度上产生了改变世界的基因,但效率、可靠性和普适性远未达标,距离成为推动AI普及的“万用发动机”还有一段距离。
因此训练更智能、更好用的端侧模型在当下显得更为迫切。
此外,端侧模型需要更好理解长文本的整体结构和语义才能使其精准捕捉用户需求。端侧设备之上有大量涉及聊天记录、位置、浏览等信息的用户个人信息,这些信息不仅是模型发挥强大能力的关键,同时也承载了用户的私人信息无法上传到云端,因此长文本对于端侧AI应用场景的扩展至关重要。
MiniCPM4.0的长文本能力就进一步扩展了端侧模型部署、应用开发的想象空间。
从更长远的视角来看,新行业发展机遇的破土而出,向来与技术创新的迭代演进同步,行业发展共识与底层创新技术驱动相辅相成。
面壁智能在端侧模型领域的布局就是很好的证明,其专注于通过科学化、成本可控的底层创新。区别于业界普遍采用的“大力出奇迹”路线,其从数据、训练、学习、推理等层层流程,均实现研发投入产出比的最大化。
上文提到的稀疏注意力研究InfLLM,正是2024年面壁智能与清华大学NLP实验室联合发布的研究成果,并在当下为产业创新提供了动力,这一思路就体现到了DeepSeek采用的长文本处理架构NSA(Native Sparse Attention)中,二者在稀疏注意力机制的技术本源上一脉相承。
到如今,在此基础上面壁智能推出了InfLLM新版本,补齐在短文本推理的短板。
这一从基础研究突破到工程化改进,再到不同场景能力扩展的技术良性循环闭环,恰是当下大模型产业良性发展的生动注脚。
更为底层的就是当下大模型开源生态的爆发,李大海透露,面壁智能坚持开源,小钢炮MiniCPM系列全平台下载量已累计破1000万。
而此次伴随MiniCPM4.0的发布,其开源属性进一步透明,从参数、高质量预训练数据、稀疏加速算子和框架都实现了开源。
在技术创新与应用场景扩展的双重突围下,端侧AI的爆发指日可待。
回溯近两年来大模型产业发展,关于大模型Scaling Law发展遇到瓶颈、互联网低成本公开可用数据即将用尽的争论频发,均使得业界开始重新思考如何实现AGI;今年初DeepSeek V3/R1系列高效模型全球出圈,通过技术创新推动模型训练和推理成本持续下降正逐渐成为业界共识,这些都是端侧AI爆发的种子。
清华大学长聘副教授、面壁智能首席科学家刘知远认为,智能革命的到来不可能依赖模型越大能力越强的规模法则(Scaling Law),而要通过技术创新提升模型能力密度,从而用更低成本构建和使用更强智能,实现AI的高质量、可持续发展。
因此,我们也可以感受到端侧基础模型在当下AI发展中的重要性。他也大胆发出预测:“只要是这个世界上已经实现的大模型能力,随着时间的演进和技术的进步,最终都可以在主流终端如PC、手机、汽车或机器人上流畅运行。”
面壁智能正在朝着这一目标冲刺。
面壁智能一直致力于将大模型技术推向端侧,实现高效的端侧智能,新一代面壁小钢炮模型MiniCPM4.0的发布更具里程碑意义,其标志着端侧智能进入全新时代,
基于此,未来我们有望看到更多的智能设备具备强大的AI能力,伴随着从消费级终端到行业解决方案,AI或许可以通过端侧化,真正实现从实验室到千家万户、千行百业的普惠落地,开启人机智能协同的全新时代。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:程 茜,36氪经授权发布。