端到端Transformer模型的混合精度后量化,需要克服如下难点:
- Transformer自回归模型,包含了Encoder与Decoder;端到端模型压缩的支持,需要考虑自回归逻辑(Beam Search)的复杂实现;
- 后量化需要考虑合理、有效的PTQ策略(PTQ: Post-training Quantization),确保量化后精度鲁棒性;
- 混合精度决策需要考虑实现的高效性,通常采用Label-free方式;
具体可参考端到端语音识别的移动端解决方案——"移动端实时语音识别技术方案及应用":

|