如何用识别出的文字替换扫描版PDF中的原文字？

我在用abbyy处理一些扫描版PDF时，产生了这样一个想法
现在的OCR技术已经能识别出大部分文字，但是在自动排版这方面依旧不太理想
那么我想知道有没有这样一款软件，能自动将原PDF中的字扣掉，用已经识别出来的文字代替，但其他都保持不变。
abbyy的OCR功能还是很不错的，我们可以只将算法认为准确率在95%以上的文字替换，这样就不会产生太多错误，仅仅一部分模糊文字也不影响阅读
我见识过多看的PDF重排功能，这让我觉得扣字应该也不是太难的问题
我们将OCR和裁剪结合，就能大大优化扫描版PDF的阅读效果，并且还能保持原有结构和图片不变，因为我们最认真看的还仅仅是文字而已
请问众知友，有这样的软件吗？还是说abbyy有这样的用法但是我没发现呢？
谢谢大家帮忙啦
谢谢诸位的回答，可能我的表述不太清楚，在OCR处理能识别出汉字，Arcobat也能编辑PDF，因此我想到是否能将扫描出的汉字（矢量版汉字），替换原PDF中所在的汉字（原PDF中汉字不可选中且为不太清晰的图像版汉字），这个功能后来我在abbyy中找到了，但缺点是所有的汉字都会被替换掉，在此基础上能否只替换置信度较高的汉字呢（即软件分析识别为该汉字的准确率较高的，才进行替换，否则就不进行替换，这样使得不至于替换处理后错字太多，阅读不下去）

另外，我很好奇，在神经网络应用如此广泛的情况下，是否有abbyy或其他OCR软件根据前后文对识别率较低的字进行预测处理呢？（参考语音识别技术和中文分词技术）

热心的小回应 · 2021-1-6 16:29:31

用Canon MP Navigator EX 4.0的文档模式，可以产生文本可识别复制版的PDF文件(增强PDF格式文件)，其排版保持原样，文本基本都可复制，其文件尺寸也较小（非图片版），公司一直使用。但是只能在佳能的扫描仪上用，其他品牌的扫描仪无法使用。
发现 arcobat pro dc 增强扫描实现了
类似Canon MP Navigator EX 4.0 有直接扫描产生文字版的PDF的功能。

说明：双层PDF格式文件是一种具有多层结构的PDF格式文件，是PDF文件衍生的一种文件，其特点是：文件既可以
是文本型的（比如由word生成的文件），也可以是图像型的（比如由扫描生成的文件）；双层PDF格式文件是指文
件内容既包含文本层，也包含图像层，且其位置上下一一相对应。双层PDF是指将标准资料通过扫描仪快速录入后
，经过去污、纠偏和OCR识别，然后可以直接生成可以检索的PDF文件，这个PDF文件是双层的，上层是原始图像，
下层是识别结果，这样可以100%保留原始版面效果，并且支持选择/复制/检索等功能，这样的PDF文件便于建立索
引数据库，进行科学的管理。

作者：囧思八千
链接：
囧思八千：为什么一些 PDF 文件看起来像是扫描的，但文字可以选择、复制？
来源：社区
著作权归作者所有。商业转载请联系作
者获得授权，非商业转载请注明出处。

热心的小回应 · 2021-1-6 16:29:30

试下悦书PDF阅读器，之前我的文献就是扫描件，但还是能转出来文字

热心的小回应 · 2021-1-6 16:29:29

保持原有结构和图片不变，直接看原始pdf好了呀,识别出来主要是为了修改方便或者存为txt变小.
如果仅仅让识别的文字( 准确率在95%以上 )替换原文字位置为了阅读起来清楚,那我觉得技术上是没什么问题的,识别的时候肯定知道字符的位置的,你可以试试百度OCR的在线demo OCR文字识别-百度大脑,识别结果还是很准的,返回识别的文字和文字行位置,把原位置涂白替换上去就问题不大(pdf的每页先转成图像)

热心的小回应 · 2021-1-6 16:29:28

用Google的图片识别文字软件可以把不能复制的电子杂志上的文字转换成文本！

热心的小回应 · 2021-1-6 16:29:27

我觉得arcobat就能实现吧，我用的arcobat pro dc 2017版，扫描的pdf文件直接用arcobat打开之后，点击编辑pdf就能编辑了。没太懂您说的意思，不过arcobat这个就是原排版不变的情况下可以编辑部分文字。

如何用识别出的文字替换扫描版PDF中的原文字？

5 个回复