经过我前段时间的研究和验证,在仅使用bert模型下做到以下几点,可以帮助大量提升文本纠正性能:
1.放弃nsp任务,仅针对mlm任务;
2.强化数据,对每个汉字均要mask;
3.数据均衡,对训练集中每个训练单字进行数量统计,数量过低的冷僻字要进行补足,例如:
“血清肌酐偏高”,“酐”是一个冷门字,可以生成若干随机字均替换该字,这种方式对于OCR识别结果的纠正有显著效果。
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
QQ咨询|关于我们|Archiver|手机版|小黑屋|( 辽ICP备15012455号-4 ) Powered by 期权论坛 X3.2 © 2001-2016 期权工具网&期权论坛 Inc.
下载期权论坛手机APP