bf16踩坑

只看楼主
收藏
回复

KyvYang
高级粉丝
3

尝试直接对模型进行model.bfloat16()后训练，速度确实加快且显存占用减少了。进行一百多个step的训练发现和fp32没什么不同，就以为没有精度损失。直到最近发现模型不收敛，这才想起做一个长点的实验，结果如图（上面的是bf16，下面的是fp32）
后续是保持模型本体fp32，使用autocast和gradscaler，这下精度没有损失了

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示

0回复贴，共1页

<<返回机器学习吧

分享到:

日	一	二	三	四	五	六