fp16与fp32简介与试验

论坛 › 期权论坛 › 脚本

 匿名技术用户  2021-1-15 00:38  55  0

目录

一、fp16和fp32介绍

二、为什么应用fp16训练：

三、应用fp16存在问题

四、实践对比

一、fp16和fp32介绍

fp16是指采用2字节(16位)进行编码存储的一种数据类型；同理fp32是指采用4字节(32位)；
如上图，fp16第一位表示+-符号，接着5位表示指数，最后10位表示分数；
- 公式：
- 其中，sign位表示正负，exponent位表示指数（），fraction位表示的是分数（）。其中当指数为零的时候，下图加号左边为0，其他情况为1。
- 具体计算情况可分为下面三种：
- Exp:
- 所以可以计算出，fp16值动态区间：精度其实为
- fp32值动态区间：

二、为什么应用fp16训练：

fp16和fp32相比对训练的优化：
- 1.内存占用减少：很明显，应用fp16内存占用比原来更小，可以设置更大的batch_size
- 2.加速计算：加速计算只在最近的一些新gpu中，这一块我还没有体验到好处...有论文指出fp16训练速度可以是fp32的2-8倍

三、应用fp16存在问题

由于fp16的值区间比fp32的值区间小很多，所以在计算过程中很容易出现上溢出（Overflow，>65504 ）和下溢出（Underflow，<6x10^-8 ）的错误，溢出之后就会出现“Nan”的问题
借用别人例子：
解决办法：
- 1.混合精度加速：简单的讲就是使用fp16进行乘法和存储，只使用fp32进行加法操作，避免累加误差；
- 2.损失放大化：
  - 反向传播前，将损失变化（dLoss）手动增大倍，因此反向传播时得到的中间变量（激活函数梯度）则不会溢出；
  - 反向传播后，将权重梯度缩倍，恢复正常值。

四、实践对比

实践代码：

from apex import amp
model, optimizer = amp.initialize(model, optimizer, opt_level="O1") # 这里是“欧一”，不是“零一”
with amp.scale_loss(loss, optimizer) as scaled_loss:
    scaled_loss.backward()

这里我直接应用fairseq代码的fp16参数：gpu用1080Ti简单试验了下
- fp16：
- fp32：
- 总结：1080Ti应用fp16确实可以省内存，但是理论上是不能加速的啊，这里小朋友有比较多问号？？?
混合精度加速，需要用到 Volta 结构的GPU，只有V100 和 TITAN V 系列是支持 TensorCore 加速计算

引用：

回复

分享到 :

0 人收藏

16级独孤

匿名技术用户

积分:7942463

帖子:1588486

精华:0

+ 关注私信

期权论坛

期权论坛

期权网络科技版权所有: 关于我们; 联系我们; 加入我们; 反馈问题; 免责声明; 积分充值

统一社会信用代码: 积分规则; 网站地图; 爱文库; 下属网站

官方: 新浪微博; 微信公众号
◆

下载: 表情包; App下载

期权论坛

期权论坛

QQ咨询|关于我们|Archiver|手机版|小黑屋|( 辽ICP备15012455号-4 ) Powered by 期权论坛 X3.2 © 2001-2016 期权工具网&期权论坛 Inc.