您有一个很棒的基于 AI 的应用程序创意。将微调想象成向预先训练的 AI 模型传授新技巧。
当然,它已经通过对大量数据集的训练掌握了很多知识,但你需要根据自己的需求进行调整。例如,如果你需要它发现扫描中的异常情况,或者弄清楚客户的反馈真正意味着什么。
这就是超参数的作用所在。将大型语言模型视为基本配方,将超参数视为调味品,为您的应用程序赋予独特的“风味”。
在本文中,我们将介绍一些基本的超参数和模型调整。
什么是微调?
想象一下,一个擅长画风景画的人决定改画肖像画。他们了解基本原理——色彩理论、笔法、透视——但现在他们需要调整自己的技巧来捕捉表情和情绪。
挑战在于在保持模型现有技能不变的情况下教会它新任务。您也不希望它过于“沉迷”于新数据而错过全局。这时超参数调整就能派上用场了。
LLM 微调帮助 LLM实现专业化。它利用 LLM 的广泛知识,使用小得多的数据集训练他们完成特定任务。
为什么超参数在微调中很重要
超参数是区分“足够好”的模型和真正优秀的模型的因素。如果你对它们要求过高,模型可能会过度拟合或错过关键解决方案。如果你要求太高,模型可能永远无法发挥其全部潜力。
将超参数调整视为一种业务自动化工作流程。您正在与模型对话;调整、观察和改进,直到它成功。
微调时需要了解的 7 个关键超参数
微调成功与否取决于调整几个重要的设置。这听起来可能很复杂,但这些设置是合乎逻辑的。
1.学习率
这控制着模型在训练过程中改变其理解的程度。这种类型的超参数优化至关重要,因为如果你作为操作员……
- 速度太快,模型可能会跳过更好的解决方案,
- 速度太慢,您可能会感觉像是在看着油漆变干 – 或者更糟的是,它会完全卡住。
对于微调,小而细致的调整(就像调整灯光的调光开关)通常可以达到目的。在这里,您需要在准确性和快速结果之间取得适当的平衡。
如何确定正确的组合取决于模型调整的进展情况。您需要定期检查以了解进展情况。
2. 批次大小
这是模型一次处理的数据样本数量。当您使用超级调整优化器时,您希望获得合适的大小,因为……
- 大批量处理速度很快,但可能会忽略细节,
- 小批量虽然速度慢,但很彻底。
中等批量可能是金发姑娘的选择——刚刚好。同样,找到平衡的最佳方法是在进入下一步之前仔细监控结果。
3. 时代
一个 epoch 是指对数据集进行一次完整的运行。预训练模型已经知道很多,因此它们通常不需要像从头开始的模型那样进行那么多 epoch。多少个 epoch 合适?
- 太多了,模型可能会开始记忆而不是学习(过度拟合)。
- 数量太少的话,可能学习不到足够的信息而无法发挥作用。
4. 辍学率
想象一下,这就像强迫模型发挥创造力。通过在训练期间关闭模型的随机部分,您可以做到这一点。这是阻止模型过度依赖特定路径和变得懒惰的好方法。相反,它鼓励 LLM 使用更多样化的问题解决策略。
如何做到这一点?最佳的 dropout 率取决于数据集的复杂程度。一般的经验法则是,dropout 率应与异常值的可能性相匹配。
因此,对于医疗诊断工具来说,使用更高的 dropout 率来提高模型的准确性是有意义的。如果您正在创建翻译软件,则可能需要稍微降低速率以提高训练速度。
5. 体重衰减
这可以防止模型过于依赖任何一个特征,有助于防止过度拟合。可以将其视为“保持简单”的温馨提醒。
6. 学习率安排
这会随着时间的推移调整学习速度。通常,你会从大胆、全面的更新开始,然后逐渐进入微调模式——有点像从画布上的粗线条开始,然后再细化细节。
7. 冻结和解冻层
预训练模型带有多层知识。冻结某些层意味着您锁定了它们现有的学习,而解冻其他层则让它们适应您的新任务。是否冻结或解冻取决于新旧任务的相似程度。
微调的常见挑战
微调听起来不错,但我们不要粉饰它——你可能会遇到一些障碍:
- 过度拟合:小数据集很容易让模型变得懒惰,只会记忆而不是泛化。你可以使用提前停止、权重衰减和 dropout 等技术来控制这种行为。
- 计算成本:测试超参数就像玩打地鼠游戏。它很耗时,而且可能占用大量资源。更糟糕的是,它有点像猜谜游戏。您可以使用 Optuna 或 Ray Tune 等工具来自动执行一些繁重的工作。
- 每项任务都是不同的:没有放之四海而皆准的方法。对一个项目有效的技术可能对另一个项目来说是灾难性的。你需要进行试验。
成功微调 AI 模型的秘诀
请记住以下提示:
- 从默认值开始:检查任何预训练模型的推荐设置。将它们用作起点或备忘单,
- 考虑任务相似性:如果你的新任务与原来的任务非常相似,那么就做一些小的调整,并冻结大多数层。如果是 180 度的大转变,那么让更多的层适应并使用适中的学习率,
- 关注验证性能:检查模型在单独的验证集上的表现,以确保它正在学习概括而不是仅仅记住训练数据。
- 从小处着手:在训练整个模型之前,先用较小的数据集进行测试。这是在错误越积越多之前快速发现错误的一种方法。
最后
使用超参数可以让你更轻松地训练模型。你需要经历一些反复试验,但结果证明这些努力是值得的。当你做对了这些,模型就会在任务上表现出色,而不是仅仅做出平庸的努力。