“ABBYY多语言OCR解决方案所提供的OCR技术十分适合上海外国语大学,它能够提供最优质的识别功能,并支持大量语种。我们的老师们高度称赞了ABBYY的产品,他们的教学效率因此得到了显著提升。”
上海外国语大学IT经理Ren
背景
上海外国语大学(SISU)是集科研与教学一体的综合大学,由中国教育部和上海市政府共同管理。自1949年成立以来,该大学已成为全国领先的研究中心之一。1996年,国家教委授予上海外国语大学“211工程”大学称号。中国政府的这个举措旨在增强约100家高等教育和重点学科机构的实力,并将其作为国家的发展重点。
如今,上外是主要的外文资料和信息咨询中心。它拥有10多个研究机构,专门从事外国语言文学、国际政治、经济、文化比较和跨文化沟通。该大学编辑出版了十余种学术期刊,包括《外语》、《外语界》、《国际观察》、《中国比较文学》和《阿拉伯世界研究》。
该大学有三个图书馆,共拥有300多万册中外藏书,以及近4600种中外报纸和杂志。除了中国作品以外,还有外国出版的外国文学,以及语言研究参考书。此外,这三个图书馆还订阅了1200多种中文和外语报刊和期刊。
创造、保存和向学术界内外传播知识是上海外国语大学的核心使命。在过去60年中,上海外国语大学一直坚持收集大量的研究材料和资源,并不断更新,以适应大学工作的新需求和当前需求。
挑战
为了支持科研、教学和学术交流,SISU积极运用新的数字技术,来增加图书馆馆藏和其他材料。其主要想法是设立创建数字图书馆的基金会,并为学术界提供便利的原始资料。
在寻找归档和保存领域数字化解决方案的时候,SISU首先决定将数字化处理项目外包给一家BPO(外包流程)公司,这家公司承担了整个文档处理任务。这似乎是个好主意,但随着文件量增大,某些缺点逐渐显露出来:价格太高、生产力低下;由于SISU的多语种资料种类繁多,文本识别质量并不高。
多语言资料在上海外国语大学教材中始终占有很大的比重。作为一家外语大学,该大学提供不同语种的教育课程:英语、俄语、德语、法语、西班牙语、阿拉伯语、日语、波斯语、韩语、泰语、葡萄牙语、希腊语、意大利语、瑞典语、荷兰语、印尼语和对外汉语。极少有BPO企业能够真正提供可靠的支持,以便识别所有语言并有效地管理大量的教材。除此之外,由于外包价格高昂,SISU无法及时处理与日俱增的大量书籍和杂志。
在意识到外包不能满足其期望之后,上外改变了最初的策略,转而使用文档采集技术将书籍处理步骤整合到大学本身的工作流程系统之中。为此,上外与上海泰彼信息科技有限公司(中国代表处)(DIT)展开了合作。后者是一家软件供应商,擅长于为成像、扫描和电子文件处理领域提供端到端解决方案。
项目
该项目的主要目标是让学者能够更轻易地访问学术材料,并提供更有效的搜索功能和用法。当时,上外已经有了自己的数字图书馆工作流程系统,这个系统是个共享的数字资源库,用于存储高校图书馆的数字内容。通过整合新的数字化技术,上外希望用户能够对大学图书馆和其他来源的大量资料进行完整的访问(如阅读和打印)。DIT设计出了基于保存和访问模式的解决方案,能够将原始资料转换成可全文搜索的电子形式。
该解决方案的核心是ABBYY Recognition Server ,这是基于强大服务器的自动OCR解决方案,具有可扩展的体系结构。它具有高容量OCR和文档转换功能,非常适合于处理大学各大部门的文档。通过进行集中的OCR处理,只需要通过一台机器加以控制,就能将所有的识别和转换任务分配给各处理站和CPU,以平衡整个系统资源的工作量。识别服务器的多功能识别技术涵盖了该大学文档采集过程中的所有重要步骤:扫描、识别、文件分离、分类、索引和交付。
内置的ABBYY OCR Engine具有前所未有的识别精度,并确保了文档处理准确可靠。ABBYY Recognition Server支持198种语言,具有拉丁、斯拉夫、亚洲等书写系统,如中文、日语、韩语、希伯来语和越南语。由于它所支持的语言非常广泛,该大学能够处理包括多语种文件在内的所有材料。此外,由于ABBYY Recognition Server拥有一个突出的功能——先进识别技术ADRT,它能够建立文档的逻辑模型,因此,系统能够自动识别和复制文档的结构部件和格式元素。因此,用户能够如实查看资料的原始格式,包括资料中的插图、图表和照片。
借助于DIT的努力和ABBYY集成软件,上外最终能够大规模地处理各种资料,克服了外包服务无法解决的难题。
结果
上外整合ABBYY Recognition Server 之后,不仅能将大量纸质学术资料进行数字化处理,由于ABBYY软件提供的出色的OCR技术,图书、期刊、报纸、杂志的全部内容(文本和图像)也都可以轻松获取。这种数字化方法通过添加先进的全文本搜索功能,让用户可以全文搜索文档,从而大大方便了学者们使用这些资料。
由于其无与伦比的可扩展性,ABBYY Recognition Server 能够定期处理或二十四小时连续处理任何数量的文件。它支持大量语种,可以转化大学馆藏的任何资料,不受语种的限制。上外最终获得了下述成效:
•降低成本(与BPO服务比较)
•海量处理
•优秀的识别质量以及多语言支持
上海外国语大学对识别结果极其满意,现在正计划继续采用ABBYY Recognition Server,对文件进行数字化处理。此外,鉴于ABBYY卓越的性能,该大学正将项目扩展至其科研院所以及为教师提供教学支持。
关于上海外国语大学(SISU)
该大学成立于1949年,简称SISU,已发展成为综合性的多学科外国语大学,在国内外都颇具影响力。目前,它是从事对外汉语教学并与国外展开文化交流的主要大学之一。
目前,该大学拥有23个硕士学位授予点、10个博士点和1个博士后流动站。目前,上海外国语大学拥有1400多名全日制研究生,其中包括200多名博士生。