挑战,发布移动端小模型,性能比肩
新智元报道
编辑:乔杨
【新智元导读】
ScalingLaw还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。
从5月和6月几家科技巨头的发布会中,我们已经能隐隐感受到AI的一个重要发展趋势:从云数据中心走向个人用户,挑战,发布移动端小模型,性能比肩从大型服务器走向笔记本和移动设备。
遵循ScalingLaw已经不再是唯一的路径,模型「以小搏大」的故事不断上演。
硬件方面,我们看到了AI功能逐渐与电子产品进行深度集成。
比如微软臭名昭著的Recall功能,正是他们的重要组成部分;苹果也在AppleIntelligence的大旗下推出用于,力求与iOS无缝衔接。
如今LLM的参数量动辄上百亿,苹果3B的参数量已经显得十分迷你,但对手机这种移动设备来说依旧有很高门槛。
不仅用2-bit和4-bit混合精度压缩模型(平均每个权重3.5-bit),而且要有至少8G内存和M1芯片才能运行。
Meta最近发表的一篇论文就表明,参数量可以进一步收缩,最新提出的MobileLLM模型参数量小于1B,但性能依旧可观。
LeCun也亲自发推为这项研究背书,称赞了其中一系列精简参数量的操作。
这篇论文已被ICML2024接收,模型的训练代码也已经在GitHub上开源。
简介
我们首先做个假设,如果把GPT-4(大约有1万亿参数)以50tokens/s的推理速度部署在生活中,你需要什么样的硬件?
答案是1亿个H100GPU。别说是移动设备了,家里都放不下。
那如果降低标准,用LLaMA-v27B这样的模型,再加上8-bit量化呢?
简单计算一下,光存储模型参数就需要约7GB,但不是存储空间,而是珍贵的运存空间(DRAM)。
而且DRAM也不能被AI模型全占了,考虑到操作系统和其他应用的运行,LLM的运存占比不能超过10%。
按照图2的统计,各个品牌最近发布的移动设备一般会配备6~12GB的DRAM。这就意味着,如果要在手机上顺利部署,模型的参数量最好能降低到6.4分和约10分的提升。
下游任务
除了在基准测试上跑分,论文还考虑到了应用场景部署时对模型多方面的要求,并进行了相应测评。
AlpacaEval和MT-Bench分别测试模型在单轮和多轮聊天任务中的表现,相比其他3个基线模型,MobileLLM依旧是性能最优,而且甚至能用350M的参数超过其他参数>1B模型的表现。
除了对话,在API调用的场景中,MobileLLM的EM分数可以和7B参数的LLaMA-v2相匹配。
此外,MobileLLM与量化(PTQ)的兼容性也很好。经过W8A8量化后,模型的性能只有不到0.5分的下降,并且依旧与层共享机制兼容,因此可以适应更严苛硬件条件下的部署。
作者简介
本文的通讯作者ZechunLiu是MetaRealityLabs的研究科学家。她本科毕业于复旦大学,博士毕业于香港科技大学,加入Meta前曾有两年多的时间在CMU担任访问学者。
Zechun的研究兴趣是深度学习在现实场景中的应用,例如资源不足的限制、计算资源和精度之间的权衡等,其中重点关注网络二值化和量化、网络通道剪枝、架构设计、知识蒸馏等方面。
参考资料: