ADMM深度模型稀疏化训练

论坛 › 期权论坛 › 脚本

 匿名技术用户  2021-1-15 00:27  678  0

基本原理

参考论文：https://arxiv.org/abs/1804.03294

GitHub：https://github.com/microsoft/nni/blob/master/nni/algorithms/compression/pytorch/pruning/admm_pruner.py

组合优化问题

基本的优化问题：

引入辅助变量、对偶变量，构造ADMM正则化约束：

交替方向优化求解

固定Z与U，通过SGD优化求解得到：

固定W，更新得到Z与U：

稀疏训练收敛时，网络权重满足如下稀疏约束：

完成稀疏训练之后，执行Hard prune，再通过Fine-tuning恢复精度；稀疏训练与Fine-tuning过程，约束条件与Loss变化基本如下：

需要注意的是：
- U初始化为0；
- Z初始化为权重W的初始剪枝；
- 正则项的惩罚系数越高，稀疏约束越紧；
- 剪枝率按渐进式调整，可确保更好的训练效果；
- 可与Taylor metric等Importance metric联合使用：
- Taylor Metric可参考：https://research.nvidia.com/publication/2019-12_Importance-Estimation-for

压缩流程控制

参考PAI模型压缩工具的使用；
在指定训练步数的after_run中，执行压缩action：

实验效果

模型：PAI EasyASR ConvDFSMN-s；可参考：https://arxiv.org/abs/2010.14841
Test-set: Aishell-1中文语音数据集；
后量化策略（PTQ）可参考：https://blog.csdn.net/nature553863/article/details/109772111
移动端Runtime：MNN支持深度模型的随机稀疏压缩，以及稀疏/量化混合压缩，需提供protobuf表格；

模型	稀疏度	方式	mnn模型容量（排除MatMul分类层）	实际压缩比	FP32精度	量化后精度
ConvDFSMN	-	原FP32	22.375MB	-	WER=10.54	-
ConvDFSMN	-	量化	5.695MB	3.929	WER=10.54	WER=10.62
ConvDFSMN	35%	稀疏+量化	4.886MB	4.581	WER=10.84	WER=10.94
ConvDFSMN	50%	稀疏+量化	4.067MB	5.505	-	-
ConvDFSMN	60%	稀疏+量化	3.392MB	6.601	WER=11.50	WER=11.65

回复

分享到 :

0 人收藏

16级独孤

匿名技术用户

积分:7942463

帖子:1588486

精华:0

+ 关注私信

期权论坛

期权论坛

期权网络科技版权所有: 关于我们; 联系我们; 加入我们; 反馈问题; 免责声明; 积分充值

统一社会信用代码: 积分规则; 网站地图; 爱文库; 下属网站

官方: 新浪微博; 微信公众号
◆

下载: 表情包; App下载

期权论坛

期权论坛

QQ咨询|关于我们|Archiver|手机版|小黑屋|( 辽ICP备15012455号-4 ) Powered by 期权论坛 X3.2 © 2001-2016 期权工具网&期权论坛 Inc.