提升汉字文本纠正性能的经验总结

经过我前段时间的研究和验证，在仅使用bert模型下做到以下几点，可以帮助大量提升文本纠正性能：

1.放弃nsp任务，仅针对mlm任务；

2.强化数据，对每个汉字均要mask；

3.数据均衡，对训练集中每个训练单字进行数量统计，数量过低的冷僻字要进行补足，例如：

“血清肌酐偏高”，“酐”是一个冷门字，可以生成若干随机字均替换该字，这种方式对于OCR识别结果的纠正有显著效果。