提升汉字文本纠正性能的经验总结

论坛 期权论坛 脚本     
匿名技术用户   2021-1-7 14:11   146   0

经过我前段时间的研究和验证,在仅使用bert模型下做到以下几点,可以帮助大量提升文本纠正性能:

1.放弃nsp任务,仅针对mlm任务;

2.强化数据,对每个汉字均要mask;

3.数据均衡,对训练集中每个训练单字进行数量统计,数量过低的冷僻字要进行补足,例如:

“血清肌酐偏高”,“酐”是一个冷门字,可以生成若干随机字均替换该字,这种方式对于OCR识别结果的纠正有显著效果。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP