OCR汉字识别的测试

论坛 期权论坛 脚本     
匿名网站用户   2020-12-19 12:59   1064   0

最近一直在做信息提取,其中碰到图片中文字提取的模块,这里面还真的水也很深。当然文字的定位提取是关键一步,但是更重要的还是后面直接输出文字模块。


目前开源的tesseract,虽然已经取得了比较大的进步,但是经过今天测试,发现还需要有更大的提取。以目前的tesseract3.04版本,其测试结果如下:


不过,简单了看了下这个开源架构,总体上可读性很强,也有很多封装接口。如针对C#和JAVA都可以调用,还是比较方便的。从其训练集来看,也支持非常多的语言,只是目前精度上还是需要再提高提高啦。



分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP