Rpengの博客
文章
标签
项目
小工具
关于
文章
标签
项目
小工具
关于
搜索
Tag: AI
常见PEFT方法原理
12/14/2023
·
约 2356 字
·
5 分钟
数学
深度学习
AI
本文讨论了在大规模通用数据集上训练的LLM模型微调方法,特别是如何通过适配器(Adapter)、前缀(Prefix)和引导词(Prompt)等方法来适应特定任务。特别介绍了微软提出的低秩自适应(LoRA)技术,该方法通过分解更新量矩阵为两个低秩矩阵的乘积来减少运算量,并取得了与全量微调相近的效果。文章还探讨了LoRA的具体原理、应用以及面临的挑战。...
邮箱保活程序-通义千问
8/16/2024
·
约 3542 字
·
8 分钟
Python
AI
本文介绍了通过通义千问实现邮箱保活程序的方法,并给出了详细的代码示例。...
KV Cache
8/29/2024
·
约 1582 字
·
4 分钟
AI
本文介绍了LLM(大型语言模型)中KV Cache的重要性,它是加速运算的关键步骤,确保在对话过程中输入文本增长时,推理速度不受影响。文章详细解释了Self Attention机制和因果掩码的概念,并讨论了KV Cache如何通过缓存计算结果来优化预测过程。...
BatchNorm和Dropout在训练和测试的区别
10/23/2022
·
约 802 字
·
2 分钟
AI
本文探讨了BatchNorm和Dropout在训练和测试阶段的区别,并解释了它们各自的作用。BatchNorm通过滑动平均计算全局均值和方差,用于加快数值稳定性和加速训练过程。同时,它保留这些参数至测试阶段以供使用。Dropout则在训练过程中对神经元输出进行随机冻结,减少过拟合,并在测试时将输出结果放缩1-r倍,保证激活函数输入的稳定。文章还指出Dropout的本质是Bagging思想,通过随机选择不同的神经元来降低模型的方差。...