最近一直在做信息提取,其中碰到图片中文字提取的模块,这里面还真的水也很深。当然文字的定位提取是关键一步,但是更重要的还是后面直接输出文字模块。
目前开源的tesseract,虽然已经取得了比较大的进步,但是经过今天测试,发现还需要有更大的提取。以目前的tesseract3.04版本,其测试结果如下:
不过,简单了看了下这个开源架构,总体上可读性很强,也有很多封装接口。如针对C#和JAVA都可以调用,还是比较方便的。从其训练集来看,也支持非常多的语言,只是目前精度上还是需要再提高提高啦。
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
QQ咨询|关于我们|Archiver|手机版|小黑屋|( 辽ICP备15012455号-4 ) Powered by 期权论坛 X3.2 © 2001-2016 期权工具网&期权论坛 Inc.
下载期权论坛手机APP