如何理解大模型的知识蒸馏技术?怎么蒸？如何馏？

基地

Просмотров 2,9 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 6 фев 2025
Gmatrix【基地】
数字货币摆脱奴役
人工智能摆脱肉体
宇宙殖民摆脱旧世界
学累了，学困了，就听AI给你聊透！
最强AI播客生成工具，学习利器！聊透文本，文档，youtube视频---聊透Liao2.AI
大家好！今天我要跟大家聊一个特别有意思的人工智能技术--知识蒸馏（Knowledge Distillation）。你们知道吗？这项技术的灵感居然来自于昆虫的变态发育过程，真是让人惊叹不已！
想象一下，就像毛毛虫变成蝴蝶那样，昆虫在幼虫期和成虫期有着完全不同的形态。幼虫期主要是为了获取营养和能量，而成虫期则需要适应飞行和繁殖的需求。
这个自然界的奇妙现象，启发了科学家们在机器学习领域开创了一个全新的方向！
2015年，由Google的研究团队发表了一篇开创性的论文，由Geoffrey Hinton、Oriol Vinyals和Jeff Dean这些人工智能领域的大牛共同完成的。
他们提出了一个特别巧妙的想法：为什么我们不能让AI模型也经历这样的"变形"呢？
在训练阶段，我们可以像贪吃的毛毛虫一样，使用一个庞大的模型（我们称之为"教师模型"）来学习和消化大量的数据。这个模型可以非常复杂，可以是多个模型的集成，也可以使用很强的正则化技术，比如dropout。它就像是在尽情地吸收知识的营养！
但是等到实际应用的时候，我们需要的是一个轻巧灵活的"成虫"--也就是"学生模型"。
这个模型需要更加高效，能够快速响应，特别是在资源受限的设备上。所以问题来了：我们如何把庞大模型中的知识传递给小模型呢？
这就是知识蒸馏的精髓所在！就像蝴蝶保留了毛毛虫的DNA信息一样，我们通过特殊的训练方法，把大模型中提炼出来的知识转移到小模型中。这样，小模型就能在保持较高准确率的同时，实现更快的预测速度。
这个想法其实早在Caruana的研究中就有所体现，但是Hinton团队的工作让这个领域有了突破性的发展。他们发现，我们不应该把模型的知识简单地等同于参数值，而是应该以一种更抽象的方式来理解和传递这些知识。
这种技术特别适合现代AI的应用场景。想想看，在语音识别、图像识别这些任务中，训练阶段我们有充足的计算资源和时间，但部署到用户端时，却需要考虑延迟和计算资源的限制。
知识蒸馏就像是一座桥梁，让我们能够在这两种场景之间找到完美的平衡点。
更让人兴奋的是，研究人员们还发现了一些令人惊讶的结果。在MNIST数据集上的实验表现非常出色，他们甚至成功地改进了一个广泛使用的商业语音识别系统！而且，他们还提出了一种新型的集成方法，包含一些全能模型和多个专家模型，这些专家模型可以快速并行训练，专门处理那些容易混淆的细粒度分类问题。
让我们继续深入了解知识蒸馏的具体细节。在训练过程中，最有趣的是大模型会为每个预测输出一个概率分布。比如说，当它看到一辆宝马的图片时，可能会判定这是宝马的概率是95%，是垃圾车的概率是0.001%，是胡萝卜的概率是0.0000001%。
这些概率的相对大小，其实包含了模型对事物相似性的理解！
这就引出了一个重要的发现：模型的"错误预测"其实蕴含着丰富的知识！拿MNIST手写数字数据集来说，当模型看到一个"2"的时候，它可能会给出10^-6的概率认为这是"3"，而给出10^-9的概率认为这是"7"。这些微小的概率差异实际上反映了这个"2"的写法是更像"3"还是更像"7"。
多么精妙的观察啊！
但是这里就遇到了一个技术难题：这些极小的概率差异在传统的训练方法中几乎没有影响，因为它们太接近于零了。Caruana和他的团队想出了一个聪明的解决方案：直接使用softmax层之前的logits作为学习目标。而Hinton团队则提出了一个更优雅的方案，叫做"温度提升"。通过提高softmax的温度，可以让这些概率分布变得更"软"，更容易被小模型学习。
这种方法的独特之处在于，它不仅仅是在传递正确答案，而是在传递模型对世界的整体理解！小模型不仅学会了"这是什么"，还学会了"为什么是这个"以及"有多像其他东西"。这种细粒度的知识传递，让小模型能够更好地模仿大模型的泛化能力。
更令人兴奋的是，使用软目标（soft targets）进行训练时，每个训练样本能提供的信息量都大大增加了。这意味着小模型往往能用更少的数据、更快的学习率来完成训练。
整个过程就像是把大模型的"智慧精华"浓缩提取出来，再输送给小模型一样，效率简直高得惊人！
说到温度这个概念，我们来深入探讨一下它的具体作用。在数学上，温度参数T实际上是在softmax函数中起着调节作用的。它就像是给知识蒸馏过程戴上了一副特殊的眼镜，让我们能以不同的"分辨率"来观察模型的输出。
当我们把温度调高的时候，原本差异巨大的概率值会变得更加平滑。这就像是把显微镜的倍数调高了，让我们能够看清楚那些原本微小的差异。
比如说，原本可能是99%和1%的概率差异，在高温下可能会变成60%和40%，这样小模型就更容易学习到这种细微的差异。
在实际训练过程中，研究人员发现了一个特别巧妙的方法：同时使用两个目标函数来训练小模型。一个是基于大模型软标签的交叉熵，另一个是基于真实标签的交叉熵。有趣的是，通常来说，我们会给软标签的目标函数更大的权重。这就像是让小模型主要跟着"师傅"学习，但还要适当参考一下"标准答案"。
还有一个特别重要的技术细节：由于使用高温度时，梯度的大小会随着温度的平方减小，所以我们需要把梯度乘以温度的平方来进行补偿。这就像是在玩跷跷板，我们需要适当调整支点的位置来保持平衡。
在极限情况下，当温度非常高的时候，知识蒸馏实际上就变成了一个更简单的问题：直接让小模型的logits去匹配大模型的logits。前提是要先对logits做零均值化处理。
这就像是把两个模型的输出先调整到同一个基准线上，然后再进行比较。
不过这里有一个有趣的权衡：较低的温度会让模型更少关注那些非常负的logits值。这可能是好事，因为这些极负值可能包含噪声；但也可能是坏事，因为它们可能蕴含着大模型学到的重要知识。就像是在决定是否要保留一些看似无用，但可能暗藏玄机的信息一样。
这种精确的数学机制让知识蒸馏不仅仅是简单的模型压缩，而是一个精心设计的知识提取和传递过程。每一个参数的调整，每一个公式的设计，都是为了让小模型能够最大程度地继承大模型的"智慧"。这就像是在进行一场精心编排的知识交响曲，每个音符都需要恰到好处。
让我们再深入看看MNIST数据集上的实验结果。一个有趣的发现是，研究人员在训练过程中进行了一个大胆的实验：他们完全删除了所有数字"3"的训练样本！这就意味着对于学生模型来说，数字"3"完全是一个"传说中的数字"，它从未见过。
结果令人震惊！在没有任何调整的情况下，模型在测试集上总共产生了206个错误，其中133个错误出现在测试集中的1010个"3"上。
更神奇的是，当研究人员调整了类别偏置后，错误数量大幅下降到109个，其中只有14个是关于数字"3"的错误。换句话说，即使完全没有见过数字"3"，经过适当的偏置调整，模型依然能以98.6%的准确率正确识别测试集中的"3"！
这种现象告诉我们什么呢？它证明了知识蒸馏不仅仅是简单的模型压缩，而是真正地传递了模型对数字形状的深层理解。
教师模型传授给学生模型的不仅仅是"这是什么数字"，而是"数字的本质特征是什么"。
这项技术在语音识别领域也取得了重要突破。现代的自动语音识别系统使用深度神经网络（DNN）来处理声波特征，将其映射到隐马尔可夫模型（HMM）的离散状态概率分布中。虽然理论上可以通过考虑所有可能的路径来训练DNN，但实际操作中通常采用逐帧分类的方式，通过最小化神经网络预测值和强制对齐标签之间的交叉熵来实现。
这种方法不仅提高了语音识别的准确率，还大大简化了训练过程。它就像是在教一个学生认识声音时，不是让他去理解所有可能的发音变化，而是通过清晰的、有步骤的示例来建立起声音和含义之间的联系。
这些理论说起来很美好，但实际效果如何呢？研究团队用一个非常强大的基准系统进行了测试 -- 这个系统使用了8个隐藏层，每层包含2560个整流线性单元，最后是一个具有14,000个标签的softmax层，总参数量达到惊人的8500万！
在实验中，研究人员训练了10个独立的模型，每个模型都采用相同的架构，只是初始参数值不同。
有趣的是，仅仅是这种随机初始化就足以创造出足够的多样性，让模型集成的性能显著超越单个模型。
实验结果令人振奋！原始基准系统在开发集上的帧准确率是58.9%，词错误率是10.9%。而当使用10个模型的集成时，帧准确率提升到了61.1%，词错误率降低到了10.7%。更令人惊喜的是，经过知识蒸馏后的单个模型达到了60.8%的帧准确率，词错误率也同样是10.7%。
这意味着超过80%的性能提升被成功地转移到了蒸馏模型中！
但是，当我们面对特别大的数据集时，即使是并行训练多个模型也会遇到计算资源的瓶颈。为了解决这个问题，研究人员提出了一个巧妙的想法：为什么不训练"专家模型"呢？每个专家模型专门负责处理一部分容易混淆的类别。这就像是医院里的专科医生，每个医生都专精于特定类型的疾病，这样不仅能提高效率，还能获得更好的诊疗效果。