挑战，发布移动端小模型，性能比肩

新智元报道

编辑：乔杨

【新智元导读】

ScalingLaw还没走到尽头，「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列，规模甚至降低到了1B以下，两个版本分别只有125M和350M参数，但却实现了比更大规模模型更优的性能。

从5月和6月几家科技巨头的发布会中，我们已经能隐隐感受到AI的一个重要发展趋势：从云数据中心走向个人用户，挑战，发布移动端小模型，性能比肩从大型服务器走向笔记本和移动设备。

遵循ScalingLaw已经不再是唯一的路径，模型「以小搏大」的故事不断上演。

硬件方面，我们看到了AI功能逐渐与电子产品进行深度集成。

比如微软臭名昭著的Recall功能，正是他们的重要组成部分；苹果也在AppleIntelligence的大旗下推出用于，力求与iOS无缝衔接。

如今LLM的参数量动辄上百亿，苹果3B的参数量已经显得十分迷你，但对手机这种移动设备来说依旧有很高门槛。

不仅用2-bit和4-bit混合精度压缩模型（平均每个权重3.5-bit），而且要有至少8G内存和M1芯片才能运行。

Meta最近发表的一篇论文就表明，参数量可以进一步收缩，最新提出的MobileLLM模型参数量小于1B，但性能依旧可观。

LeCun也亲自发推为这项研究背书，称赞了其中一系列精简参数量的操作。

这篇论文已被ICML2024接收，模型的训练代码也已经在GitHub上开源。

简介

我们首先做个假设，如果把GPT-4（大约有1万亿参数）以50tokens/s的推理速度部署在生活中，你需要什么样的硬件？

答案是1亿个H100GPU。别说是移动设备了，家里都放不下。

那如果降低标准，用LLaMA-v27B这样的模型，再加上8-bit量化呢？

简单计算一下，光存储模型参数就需要约7GB，但不是存储空间，而是珍贵的运存空间（DRAM）。

而且DRAM也不能被AI模型全占了，考虑到操作系统和其他应用的运行，LLM的运存占比不能超过10%。

按照图2的统计，各个品牌最近发布的移动设备一般会配备6～12GB的DRAM。这就意味着，如果要在手机上顺利部署，模型的参数量最好能降低到6.4分和约10分的提升。

下游任务

除了在基准测试上跑分，论文还考虑到了应用场景部署时对模型多方面的要求，并进行了相应测评。

AlpacaEval和MT-Bench分别测试模型在单轮和多轮聊天任务中的表现，相比其他3个基线模型，MobileLLM依旧是性能最优，而且甚至能用350M的参数超过其他参数>1B模型的表现。

除了对话，在API调用的场景中，MobileLLM的EM分数可以和7B参数的LLaMA-v2相匹配。

此外，MobileLLM与量化（PTQ）的兼容性也很好。经过W8A8量化后，模型的性能只有不到0.5分的下降，并且依旧与层共享机制兼容，因此可以适应更严苛硬件条件下的部署。

作者简介

本文的通讯作者ZechunLiu是MetaRealityLabs的研究科学家。她本科毕业于复旦大学，博士毕业于香港科技大学，加入Meta前曾有两年多的时间在CMU担任访问学者。

Zechun的研究兴趣是深度学习在现实场景中的应用，例如资源不足的限制、计算资源和精度之间的权衡等，其中重点关注网络二值化和量化、网络通道剪枝、架构设计、知识蒸馏等方面。

参考资料：

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052