伴随着人工智能的浪潮,OCR识别也从幕后来到台前。针对于扫描文档的OCR识别技术已经非常成熟,而自然场景下文字识别(Scene Text Recognition,STR)由于包含丰富的场景信息,且受到复杂的背景、文字的模糊与形变、不可预测的光照、字体的多样性等干扰,一直是计算机视觉领域研究的热点和难点。
APICloud联合网易有道智云在APICloud的模块Store中推出有道智云OCR文字识别服务模块,以低代码量快速接入有道智云OCR服务,缩短开发时间,极大地提高了开发效率。
有道智云ocr服务基本介绍
有道依靠丰富的产品矩阵和数以亿计的活跃用户积累了大量且优质的真实数据,通过有道众包数据平台根据不同任务需求进行大规模数据标注,以主流深度学习和神经网络技术为基础,分析各个应用场景的特性,自研了基于文本语义方向的文字检测算法和全语种混合识别的文字识别算法。通过文档平面实时检测与矫正、场景分析、360全角度图像纠偏、文档结构化分析等多个前后处理模块,进一步优化OCR系统端到端的效果。目前有道OCR系统已支持横竖斜混合排版识别、手写识别、简繁公式识别、中英日韩等26主流文字的混合识别,平均识别率高达96%以上,同时对身份证、票据等垂直场景也能输出结构化的识别结果。这一系列能力在金融、物流、教育、政府等领域都有广泛的应用。
识别示例:
产品优势
(1)识别场景多样。支持印刷体、手写体、证件/表格/发票识别、文档结构分析、文档校正、手指定位识别等擅长高难度识别(注:本次仅上线了通用文本识别SDK,后续会陆续上线表格识别、公式识别、整题识别等接口服务)
(2)超模糊字识别、公式识别、离线识别等困难场景轻松克服
(3)识别语种全面,支持27种主流语种识别
(4)OCR产品识别准确率高,平均最高准确率可达97.5%,多语种识别
(5)领跑业界识别速度,千字文档2秒完成识别校对
有道智云·AI开放平台除了在通用OCR文字识别基础上推出了更加聚焦使用场景的公式识别、表格识别等服务外,还提供包括自然语言翻译、语音识别、语音合成、口语评测等多种智能AI服务,这些服务也将陆续在APICloud平台上线,为开发者提供更加全面高效的AI服务支持。
APICloud完善的开发者生态中聚合模块已超过800个,像腾讯、阿里、百度以及网易等这样的大公司,都能在APICloud平台上找到他们提供的模块。2019年,APICloud生态体系再度升级,我们将会继续秉持 “快”为核心的平台理念,与更多合作伙伴携手为开发者带来丰富、完善的服务。