继上一篇《ABBYY开发人员独家解读FineReader》简短介绍了ABBYY FineReader的架构(又名“理论部分”)之后,我们要开始运用这些知识了。因此,此文讲述的内容非常重要,丝毫不容小觑。
用户如何参与文档处理呢?
为了避免多此一举,我想从《用户手册》中非常简单明了的方案(图1)着手。现在,在你了解了所有操作之后,让我们通过具体的例子来看看操作过程中可能出现哪些问题,以及如何处理这些问题。
只有优质图像才能有效识别
但如果图像质量不太好,我们应该怎样做呢?可以直接在FineReader中通过多种方式提高图像质量,如果某些因素无法改进,我们应该重新获取没有缺陷的图像。这个话题非常宽泛,如果你有兴趣,我会另外撰文介绍如何使用自动和手动工具在FineReader中进行图像预处理。现在,我只想指出,如果图像满足以下条件,就可以提高识别效果:
· 扫描后图像没有任何几何失真,厚书靠近书脊部位没有变形或明显弯曲;
· 给文件拍照后,除满足上述条件外,文档没有任何非线性几何失真(如梯形),整个区域聚焦均匀(亮度同样要均匀),没有光线不足导致的任何噪声,没有明显的光点(特别是光面纸)。
文件 / 项目定制阶段
用户可以选择文档语言、图像预处理方案、某些分析和识别属性,也最好能进行这些设置。下面是其中一个属性选项卡截图:
“帮助”部分详细描述了该选项卡以及其他选项卡的属性。
分析阶段
该软件从识别的角度自动突显不同的区域类型。在这个阶段,我们既可以自己标出所有区域,也可以在必要时编辑分析模块检测到的区域。
为了节省本文篇幅,建议您参阅 “帮助”部分,同时我在此处只介绍某些细微差别,以及如何提高不太理想的识别结果。
不同区域的目的
FineReader的用户界面提供了多种识别区域类型,它们通过工具栏(区域被激活时位于 “图像”窗口底部)和上下文菜单显示不同选项(右击弹出) :
· 识别区(默认为灰色框)——这是用户界面中使用的名称。在我看来,它应该叫“自动分析区”。这个区域是为了显示文档页面中有哪些部分需要进行识别。因此,在随后对每个“识别区域”进行分析或分析-识别以后,我们可能找不到或找到更多其它类型的区域。这些区域在块模板中非常有用(您可以在“帮助”中查看更多信息)。
正确定义识别区的例子:
这是来自于我们的托尔斯泰数字化项目的真实例子。有些书页有行编号(每10行有一个编号),对识别文本内容来说这并不需要识别出来,而且,如果自动分析时将这些数字包含在文本识别区域内,还会给文本阅读/校正带来麻烦。如果这些页面在扫描时大致对齐,或以相似的方式进行裁剪,那么,在分析之前最好应用块模板,将那些无用的符号排除在识别区域之外:
请注意,与文本区域不同,识别区域可以转换为其它类型的区域。在这个项目中,这一点也非常有用。
· 文本区域 包含一行或多行文字,每行文字都具有逻辑连贯性,因此,不能将两列合并到同一区块。区域形状可能不是矩形。有时,需要创建或更改文本方向,或者反转颜色(通常是白底黑字,反转后就是黑底白字,但它通常会自动反转,不需要校正)。
这些参数通常是针对单个区块设置的,因此同一个区块中最好不要包含文字方向不同或颜色反转的文字段落。
关于页面上的文本方向:
按照欧洲语言标准,文本方向是从上到下(如果文本被旋转,则按照逻辑从开始到结束)。但象形文字语言体系则更有意思:即便是在同一页面上,某些区域也既可以包括水平文本,也可以包括垂直文本,而且这些区域中所有字符都具有相同的方向!
· 表格区域 包含表格,表格有可见和隐形的(或部分)分隔线:
表格中可能只包含矩形,其中每个单元格也是矩形,但通过合并单元格,可以处理复杂的文本和表格结构。
每个单元格可能包含要识别的文字(包括空白),也可能包含图片。如果你想识别单元格中的文本,可以赋予它特殊的识别参数,否则,你可以选择“图片单元格”选项。您也可以选择一系列矩形单元格,将所需方案同时运用到所有的单元格。
进行自动分析时,表格是很复杂的对象,如果有些单元格分割线被隐藏,此时尤为复杂。非常重要的是,如果在识别之前修正表格布局,这比在FineReader或最终应用中修正识别结果要简单得多。稍后我会给出几个修正表格自动检测结果的真实例子。
· 图片区域 可能不呈现为矩形。有两种类型:普通图片(占据文字的位置)和背景图片(不占据文字位置)。它们在布局上稍有不同(例如,当拖动背景图片时,图片下方的文字不会被删除)。
· 条形码区域 包括自动检测或手动选择的条形码。和图片区域一样,其形状可能不是矩形,但通常不必要这样。
请注意:
· 只有检测到的文本单元格中的文本区域才能被识别出来。如果文本片段未被标记为识别块,就不会被识别出来。
· 与图片一样:如果图像的某部分位于区域之外,或某个图像被分成几个区域,处理过程中就可能出现问题。
· 识别语言不能掉以轻心。它们涉及众多机制,首先是分析机制:例如,亚洲语言(中日韩文)和阿拉伯语文字有其自身的特点,这些特征默认处于关闭状态,但一旦选择相应的语言,它们就会开启。
附近区域或交叉区域互动的特殊性
要在软件界面中正确地处理区域并理解识别和保存过程对它们的影响,以下规则非常重要。
· 如果文本和表格区域交叉, 并且某些符号或部分位于多个区块——实际上这肯定是出错了——此时需要修正识别结果。图像区域也是如此,虽然它对于文本处理来说不那么重要。这些错误都应该予以修正(通常需要点几次鼠标即可)。
· 用户常常需要为大的文本区域添加背景图片。主要用途是当文本行中出现片段(象形符号、图标或公式等)时,采用所谓的行内图片。在FineReader文本模板中,它们无法正确识别或者根本无法识别。
在表格中正确使用图片的例子:
请注意,区域工具条中的复选框(在窗口底部)有助于在必要时将表格的单元格转化为图片。
· 在图片背景上添加文本区域 也是个重要的办法:通常的作法是在图片背景上添加说明,甚至添加主文本段落。以下是在图片背景上正确添加文本区域的例子:
简化识别文本框操作的技巧
在编辑识别文本框的时候,上述规则会体现出来。例如,如果你绘制新的识别文本框,或拉伸现有的识别文本框,使之覆盖其他区域,后者将被自动删除。
区域选择的逻辑
此时,要考虑你的目标是什么,以及处理后你想要得到什么格式的文件。在某些复杂情况下,以下几点可能影响到识别文本框布局的修订数量和类型:
一、你只需要文字
如果您需要将文件保存为双层PDF文件(页面图片以及可供搜索和复制的不可见文字层),您的主要任务就是合理地选择区域:
· 不应存在“垃圾”区域,这些区域中部分图片元素会被识别为文本或表格区域;
· 这些区域应包含具有逻辑性的文本行,没有哪个符号同时处于几个区域,同一文本行也不会分割成两个文本区域;
· 在原始文档中显示为表格的每个区域,都应选择为一个表格区域。这将有助于提高识别质量(例如,各行将被对齐),也更易于搜索与复制文本片段。
如果原始文件中的一些图片不应保留,可以根本不选择这些区域:不要创建新的区域,要删除自动工具选中的这些区域,至少要删除检测错误的那些图片。
二、你需要一切。现在就需要!
如果文件不只包含一两列文本区域,而且最终将保存为电子图书格式(FB2、ePub或WORD、HTML等任何中间编辑格式),合理地选择表格和图片是极为重要的。你还需要决定如何处理彼此相邻的照片组,以及如何处理图片下方或上方的说明文字。稍后我们将在其他文章中学习如何处理它们。
结论
现在你明白如何处理选择被错误识别的区域了吗?当然,FineReader功能十分强大,但每个用户需识别的文件都有不同的特征。因此,如果你有兴趣,稍后我们会回到这个问题上来!
查看《ABBYY开发人员独家解读FineReader》请点击:
http://www.itbear.com.cn/n109144c30.aspx
http://www.cww.net.cn/news/html/2014/12/16/201412221056364876.htm