不改变版式如何进行OCR文字识别？一招搞定！

发布者：刘海苑发布时间：2024-01-02浏览次数：10

扫描的图片或材料如何在保持版式的情况下，提取文字并修改呢？想快速搜索印刷文件中的关键词，怎么实现？只想识别文档中的一小块文字区域，如何选定？

现有的文字提取工具，大多数会将文字直接提取出来（如图）。但是当我们在修改一份公文或者设计稿的时候，希望保留版式，在原有版式上进行修改，怎么办呢？

以上为微信文字识别示意图

福昕来帮你！福昕高级PDF编辑器支持在最大可能保持版式的基础上，直接在原有版式上进行文字提取并修改进行文字提取并修改，而且在全新升级的2023大版本中，还支持选定区域文字识别。具体如何操作呢？跟着小福一起来看看吧！

我们打开基于纸质扫描或图片的PDF文档时，福昕高级PDF编辑器能自动检测并弹出信息框，提示您是否进行OCR文字识别；

我们也可以在导航栏“转换”中随时进行手动识别，这里可以选择当前文本识别、多个文本识别、或者指定区域文字识别。

在弹出的对话框中，选择需要识别的页面范围、文档语言以及输出设置。

在“输出”类型中，若选择“可搜索的图像文本”或“可搜索的图像文本（原始图像）”，则识别后图片上的文本可以被选择并且可以搜索到关键词文本，也可以选中文字后右键进行高亮、加超链、复制等操作，可以用于查阅资料但不想修改内容的时候用；

（动图）

若选择“可编辑文本”，则识别后编辑文本时图片上的文本也可支持编辑，且识别后的文本最大可能地保持了原有的版式。

选择“可搜索的图像文本”或“可编辑文本”时，您可以在“缩减像素取样”项中为输出内容设置像素值，以在OCR过程中压缩文档中的图像和减小文件大小。

您也可以通过“快速识别”按钮，使用程序的默认设置、或最近一次通过“识别文本”命令识别文本的设置，快速进行文本识别。

如果是指定区域识别，我们点击“转换”>“识别文本”>“选定的区域”，勾选一个区域后右键“识别选定的区域”即可。

（动图）

这里为大家进行图片OCR的拓展说明；

大多数时候我们只收到一张图片，如何创建成PDF文档并OCR识别呢？

1、我们可以点击“文件”>“创建”>“将文件转为PDF”，选择文档中的图片创建为PDF文档再进行识别；或从剪贴板直接将截图或复制好的图片创建成PDF文档，再进行识别；

2、当我们创建了一个空白PDF文档，直接截图粘贴了一张图片到文档中，这时我们需要先进行扁平化处理，再进行OCR识别。点击“页面管理”>“扁平化”，即可将选定的页面进行扁平化处理。