halo 的技术博客

返回

大模型小模型推理优化知识蒸馏模型压缩

最近帮公司部署个AI应用,GPT-4确实好用,但一天烧几千块token费。老板问我能不能降成本,我说”用小模型呗”,他回了一句:“那效果行吗?”

这个问题我答不上来——直到我把这篇看完。

大模型时代正在从”堆参数”转向”降本增效”。让7B小模型干70B大模型的活,不是做梦,而是已经落地的技术路线。核心就一句话:小模型不是用来替代大模型的,是用来”降本增效”的。

先说结论:哪8种策略?#

策略核心思路适用场景成熟度
模型压缩把大模型”瘦身”成小模型部署资源有限⭐⭐⭐⭐⭐ 最成熟
联合推理大小模型分工协作高精度+低成本⭐⭐⭐⭐
权值共享小模型借用大模型的”经验”相似任务迁移⭐⭐⭐
迁移学习大模型预训练,小模型微调垂直领域定制⭐⭐⭐⭐⭐ 最成熟
小模型当插件小模型增强大模型能力特定任务增强⭐⭐⭐
提示语压缩小模型压缩输入长上下文场景⭐⭐⭐⭐
集成学习多个模型投票提升鲁棒性⭐⭐⭐⭐
模型蒸馏大模型”教”小模型知识迁移⭐⭐⭐⭐⭐ 最成熟
AI模型

一、模型压缩:把大模型”瘦身”#

这是最直观的思路——既然大模型太大,那就压缩它。

具体做法有三种:

1. 知识蒸馏(Knowledge Distillation)#

让大模型当”老师”,小模型当”学生”。老师输出概率分布(soft targets),学生学习这个分布,而不是直接学硬标签。

具体步骤:

  1. 用大模型对训练数据预测,得到软目标
  2. 让小模型拟合这些软目标
  3. 在验证集上评估小模型性能

代表论文:Hinton的《Distilling the Knowledge in a Neural Network》(2015),这是蒸馏的开山之作。

实际案例:Stanford的Alpaca 7B,用LLaMA 7B微调,成本不到$600,效果接近text-davinci-003。

2. 剪枝(Pruning)#

把大模型里”没用”的参数砍掉。怎么判断哪些参数没用?看它们对输出的影响程度。

缺点: 剪完之后通常需要重新训练恢复精度。

3. 量化(Quantization)#

把FP32参数压缩成INT8甚至INT4,内存占用直接降到1/4。现在主流推理框架都支持量化。

二、联合推理:大模型负责”思考”,小模型负责”干活”#

这个思路很实用:简单问题让小模型处理,复杂问题再请大模型出场。

1. 模型级联(Cascade)#

小模型先处理,如果置信度不够,再调用大模型。

代表论文:CascadeBERT,在4倍加速下整体准确率提高15%。

2. 投机采样(Speculative Decoding)#

这个技术很巧妙:用小模型快速生成候选token,大模型并行验证。如果验证通过,直接接受;如果不通过,用大模型的输出。

效果: T5-XXL上实现2-3倍加速,输出结果完全一致。

三、模型蒸馏:让大模型”教”小模型#

蒸馏是最成熟的技术路线,论文最多,落地也最多。

为什么蒸馏有效?

大模型的输出概率分布包含”暗知识”——比如”猫”和”狗”的概率接近,说明这两个类在某些特征上相似。小模型学习这种相似性,比直接学硬标签效果好得多。

实际案例:

Fine-tune-CoT方法:用GPT-3生成推理链,然后微调小模型学习这些推理链。结果小模型在推理任务上甚至超过了教师模型。

四、权值共享:小模型借用大模型的”经验”#

如果你有多个相似任务,可以让小模型共享大模型的部分参数。

典型做法:共享底层特征提取层,只重新训练高层任务特定层。

代表论文:《Paying More Attention to Attention》,通过注意力转移让小模型模仿大模型的注意力分布。

五、迁移学习:大模型预训练,小模型微调#

这是最经典的路线,也是成熟度最高的。

典型流程:

  1. 在大规模数据上训练大模型(如LLaMA、BERT)
  2. 在特定领域小数据上微调小模型

代表论文:SimCLR,通过对比学习预训练,微调后在ImageNet上达到76.5% top-1准确率。

六、小模型当插件:增强大模型能力#

这个思路反过来了——不是用大模型帮小模型,而是用小模型增强大模型。

代表论文:SuperICL(Super In-Context Learning)

做法:

  1. 小模型在本地微调,掌握特定任务
  2. 大模型通过上下文学习调用小模型的输出
  3. 结合两者优势

效果: 提高大模型在特定任务上的性能,同时增强小模型的多语言能力和可解释性。

七、提示语压缩:用小模型压缩输入#

长上下文场景下,token数直接影响成本。用小模型压缩提示语,既省钱又不丢关键信息。

代表论文:LongLLMLingua

核心思路:

  1. 小模型识别提示语中的关键信息
  2. 压缩冗余部分
  3. 大模型在压缩后的提示语上推理

八、集成学习:多个模型投票决策#

这个思路简单直接:用多个模型(大小混合)预测,然后投票或加权平均。

优点:

  • 提升鲁棒性
  • 降低单模型偏差

缺点:

  • 推理成本翻倍
  • 部署复杂度增加

实际选型建议#

我在实际部署中踩过的坑:

坑1:蒸馏不是万能的
蒸馏需要大量高质量数据,而且教师模型和学生模型之间要有合适的”容量差”。差距太大,学生学不会;差距太小,压缩效果不明显。

坑2:量化会损失精度
INT4量化在某些任务上精度损失超过5%,尤其是长文本生成任务。如果对精度敏感,建议用INT8或混合精度。

坑3:投机采样需要特定硬件支持
并行验证需要GPU支持,CPU环境下效果有限。

我的推荐路线:

场景推荐策略理由
垂直领域部署迁移学习+微调成熟度高,可控性强
高并发场景蒸馏+量化推理成本最低
长上下文场景提示语压缩直接省钱
复杂推理任务联合推理精度有保障

17篇参考论文(附代码)#

原文提到的17篇论文我都整理出来了,涵盖蒸馏、剪枝、量化、联合推理等方向。需要的话评论区留言,我发链接。

最后一句: 小模型不是用来替代大模型的,是用来”降本增效”的——你用哪个策略,取决于你愿意牺牲多少精度换多少成本。

你现在用的是哪种方案?评论区说说,我帮你分析下适不适合你的场景。

大模型太贵?8种''大+小''组合策略,教你省下80%推理成本
https://blog.halo26812.eu.org/blog/llm-small-model-strategies
Author halo
Published at 2026年4月22日
版权声明 CC BY-NC-SA 4.0
Comment seems to stuck. Try to refresh?✨