Rpengの博客
文章
标签
项目
小工具
关于
文章
标签
项目
小工具
关于
搜索
所有文章
(59)
less is more
手写多头注意力(MHA)的实现
5/14/2023
·
约 2687 字
·
6 分钟
深度学习
AI摘要: 本文介绍了手写多头注意力(MHA)的实现。文章首先定义了MultiHeadAttention类,该类用于处理多维输入数据并生成输出。在实现过程中,作者详细描述了如何通过线性变换、Scaled Dot-Product Attention和Softmax操作来构建注意力机制。实验结果表明,使用einsum表示法可以简化代码编写,提高可读性。...
MultiHeadAttention
多头注意力
einsum
线性变换
Scaled Dot-Product Attention
Softmax
Adam优化方法显存占用情况
12/13/2022
·
约 1765 字
·
4 分钟
深度学习
AI摘要: Adam优化方法显存占用情况。一般来说,Adam用到的信息更多,所以需要的内存占用更大。曾有个实验,Optimizer选择SGD的时候,Batch Size能选择20,但是换成Adam时候,Batch Size只能选择2。Adam的自适应体现之处在于指数平滑,缓解了梯度方向剧变,使收敛路径更平滑一点。...
Adam
显存占用
SGD
Batch Size
指数平滑
动量
拟牛顿法推导
11/13/2022
·
约 4676 字
·
10 分钟
数学
深度学习
AI摘要: 本文介绍了拟牛顿法的两种主要形式:BFGS法和L-BFGS法。BFGS法利用曲率信息来预处理梯度,从而避免了传统方法中对Hessian矩阵进行完整计算的需要。L-BFGS法进一步优化了这种预处理,通过仅保存最近m次迭代的曲率信息来计算Hessian矩阵的近似值,显著减少了内存使用和计算量。...
拟牛顿法
BFGS法
L-BFGS法
曲率信息
Hessian矩阵
存储限制
BatchNorm和Dropout在训练和测试的区别
10/23/2022
·
约 802 字
·
2 分钟
AI
AI摘要: 本文探讨了BatchNorm和Dropout在训练和测试阶段的区别,并解释了它们各自的作用。BatchNorm通过滑动平均计算全局均值和方差,用于加快数值稳定性和加速训练过程。同时,它保留这些参数至测试阶段以供使用。Dropout则在训练过程中对神经元输出进行随机冻结,减少过拟合,并在测试时将输出结果放缩1-r倍,保证激活函数输入的稳定。文章还指出Dropout的本质是Bagging思想,通过随机选择不同的神经元来降低模型的方差。...
BatchNorm
Dropout
训练
测试
方差
Bagging
KL散度,交叉熵和编码之间的关系
7/13/2022
·
约 2381 字
·
5 分钟
数学
深度学习
AI摘要: 本文介绍了KL散度与交叉熵的关系,指出信息量的期望为$-log(p)$,而熵是期望的和。通过KL散度衡量两个概率分布的差异,并解释了其非对称性和不对称性。进一步地,文章探讨了信息熵与编码之间的关系,以及如何利用香农编码定理来计算熵,从而导出平均编码长度的概念。最后,文章讨论了条件熵和极大似然估计在交叉熵损失函数中的应用,强调了交叉熵作为损失函数的另一种理解。...
KL散度
交叉熵
信息熵
熵
编码
条件熵
对数几率回归
损失函数
上一页
11 / 12
下一页