滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

获得多项世界竞赛第一的百度大脑OCR技术成为企业降本增效的“新法宝”

时间：2019-11-01 15:01:45 来源：互联网编辑：星辉 发表评论无障碍通道

在对“降本增效”的绝对追求下，OCR技术的应用创新，为整个产业“智能化”升级带来有效助力。10月31日，百度大脑开放日OCR文字识别专场在上海召开，百度AI技术生态部产品经理为开发者们详细介绍了百度大脑最新的开放能力，百度视觉技术部韩钧宇深入分享了百度大脑OCR文字识别方向的最新技术与趋势，并邀请华夏保险上海分公司、快合财税等企业通过实际案例讲述了是如何基于百度大脑OCR技术，进行企业内部智能化升级的全新思路。百度OCR产品经理进一步分享了交通、教育、医疗等更多行业应用的案例并进行了实际的产品演示。活动现场座无虚席，互动活跃。

百度大脑O CR 技术持续保持业界第一

据介绍，百度大脑AI开放平台面向广泛的企业和开发者，提供最先进、最全面的AI能力，不断降低AI应用落地的门槛。截至目前，已开放218项AI技术能力，达到24小时快速集成，开发者规模持续快速增长并突破150万。

而基于深度学习的百度OCR技术更是获得了持续领先性的成果。2019年，在由工信部、公安部和网信办组织的，中国最高等级商业领域人工智能技术竞赛的90+队伍中，百度OCR脱颖而出，获得唯一A级别证书，同时还获得ICDAR2019 MLT文字检测竞赛冠军等荣誉。

“百度OCR基础技术的持续领先，离不开更好效果的算法创新和更高性能的模型压缩。”韩钧宇介绍到。百度OCR文字识别算法具备准确、多场景、多语种、多平台的特性，通用中英文字符识别准确率达95%以上，支持文档，随拍，网图，街景，商品，手写等常见文字场景，并且支持中，英，日，韩，法，德，意等20多种语种，还支持云端，嵌入式，私有化等请求部署方式。而端到端识别、卡证票据识别、公式识别、文字编辑等解决方案则能够更好地解决具体场景的技术痛点问题，提升模型精度和运算效率，让识别更加准确高效。

未来，OCR技术的行业应用趋势将向综合方案和定制平台两个方向发展。教育、医疗、交通、财税等场景都已实现通用化的综合解决方案，而iOCR自定义模板文字识别和垂类OCR模型训练平台等定制平台将针对更丰富的客户需求满足个性定制。

百度大脑O CR 实现最广泛的应用落地

此次专场，百度大脑邀请到了华夏保险上海分公司和快合财税两家企业客户根据自身结合百度OCR技术的实际应用落地进行了案例分享。

(左：华夏保险上海分公司新技术应用处经理於维佳右：快合财税产品总监宁寿辉)

华夏保险上海分公司新技术应用处经理於维佳表示：“通过百度大脑OCR提供的解决方案，让我们在面临手工录入发票信息出错率高、效率低等行业痛点时，能够显著的节约成本、提升财务报销业务流程效率。”华夏保险上海分公司，通过应用百度大脑iOCR自定义模板文字识别和EasyDL定制化物体检测，实现二维码检测、增值税发票识别，进而实现报销单据影像分组及票面识别的自动化业务流程，年节省人力等成本核算达到1000万元。

快合财税产品总监宁寿辉则在现场讲到，基于百度iOCR财会票据识别平台搭建的快合财税智能记账SaaS，结合一台自动馈纸式扫描仪，就能够将快合财税的会计做账效率提升3倍，每年帮助几百家代账公司在做账报税环节合计省出2000万元的成本。

最后，百度OCR产品经理更加系统化的详细介绍了金融财税之外更多行业应用方案。目前，百度OCR已经广泛应用于财税票据、身份验证、内容审核、教育、保险医疗、交通以及拍照识别/翻译等领域，并且为了满足不同客户的各种需求，百度大脑除了提供近40款垂类文字识别产品外，还提供了自定义模板文字识别开发平台iOCR，针对特殊版式的票据可快速定制识别模板。通过这些案例，能够看出在这些应用场景中，百度OCR充分发挥着的优势：丰富的接口、支持自定义模板、高可用的服务确保用户业务持久稳定、低价/多样的付费方式(购买次数包，最多可以节省74.6%的费用，高精度版本低至千次7.6元),以及支持部署至私有云。

AI的大力发展，让不同行业逐步走上了智能化升级之路，而随着基础能力的进一步开放，百度OCR技术将获得更多的业界专家和开发者的支持，在技术不断突破的同时，百度OCR技术也通过百度大脑AI开放平台全面开放给第三方使用，打破封闭的研发生态，积极推动技术在具体场景上的落地。从而积累更为领先的技术，探索更多的应用场景，赋能更多的合作伙伴，创造更多的价值。

最后，对百度于2019年度公开发表的OCR文字识别领域创新技术算法，进行简单介绍：

文字检测：

基于主干、候选回归、候选区域及精细化二次回归，文字检测算法可对任意文字形状进行精确表示，解决任意形状长行文字检测问题，在公开数据集合达到SOTA检测定位效果。

详情请参见文章：C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

借鉴目标检测中的经验，为提升检测速度，研究者通过单阶段模型结构与多分支输出设计对文字候选区域表达，多任务学习、单阶段训练可以取得两阶段、多阶段相当的效果，并提升速度。

详情请参见文章：P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498

端到端识别：

现有文字识别系统以两阶段、多阶段检测、序列识别模型级联为主，非规则文字识别效果精度不足。为克服同时识别规则和非规则文字效果不佳的问题，我们提出端到端OCR识别TextNet算法，通过共享主干、透视RoI变换实现文字检测、空间注意力机制序列识别耦合设计，同时提升非规则行的文字识别效果。

详情请参见文章：Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

针对中文大类别识别场景，我们引入弱标注数据的概念，针对街景场景只标注关键词信息，忽略非重要信息，无需精确位置标注，避免大量精标注全监督数据高成本低效率问题。

基于端到端-部分监督学习方法，弱标注成本是精标注的1/90，弱标识数据量从2万扩增到40万，单模型平均编辑距离AED错误率相对降低20%。取公开英文数据集，端到端部分监督学习在ICDAR 15端到端评测达到单模型尺度SOTA效果。

详情请参见文章：Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

大规模公开数据集：

为进一步推动中文场景文字识别领域发展，通过构建新的ICDAR 2019-LSVT大规模街景文字、ICDAR 2019-ArT任意形状文字集合，百度携学术界举办两项ICDAR 2019场景文字识别的国际赛事，提供源于百度真实场景图像数据45万，奖金17,800美金，吸引业内各大企业、知名高校研究单位118支参数队伍有效提交结果339个，各大主流媒体报道20余次。百度团队在ICDAR 2019国际会议期间受邀做总结报告并为获奖单位颁奖，展现近年来OCR识别技术的快速发展与应用新高度。

详情请参见文章：C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT，in Prof. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al，ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT，in Proc. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07145

文字编辑

针对文字编辑和风格迁移任务，我们提出了业界首个文本行级别的文字编辑解决方案SRNet。该方案主要思想是将文字属性迁移和背景纹理修复任务进行解耦监督学习，并且让网络自适应学习两者的融合，以端到端优化方式达到鲁棒的文字编辑功能。

详情请参见文章：L.Wu, et al Editing Text in the Wild, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.03047

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

12-19

神策智能运营新升级，如何助力企业实现高效精准营销？

12-19

顺丰控股11月收入稳健增长6.73%，供应链及国际业务增速亮眼

三言科技12月19日消息，今日，顺丰控股公告，2024年11月公司速运物流业务及供应链和国际业务合计收入为251.96亿元，较2023年同期236.08亿元增长6.73%。其中，速运物流业务收入为188.02…

12-19

荣耀股东变动引关注，官方称系股权架构调整

三言科技12月19日消息，近日，多则网传荣耀新一轮股改已完成。据媒体报道，荣耀的股东名单已经发生变更，有国资背景的股东显示退出。信息显示，9月刚刚加入的新股东杭州微同股权投资合伙企业（有限合伙），于11月退出…

12-19

顺丰航空引领！国内全货机首次SAF商业飞行成功落地

12-19

中央经济工作会议力推哪些新兴经济模式？

12-19

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

12-19

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

12-19

宠物粮市场乱象频发，铲屎官如何为宠物选对粮？

据“趣解商业”了解，“源鲜”曾是网易严选、喵梵思等国产中高端品牌多次合作的代工厂，在不少养宠人心中有较高信任度；“源鲜”的塌房，再次挑动了许多养宠人的神经。 Erica还提到，宠粮本质上属于快消行业，并不是靠…

12-19

柔韧机器人：具身智能的新赛道与革命性突破？

相比于现阶段普遍使用的基于电机关节、金属材料、复杂传感器和精密加工工艺的“刚性”机器人技术，万勋科技通过使用软性材料与气/液驱动，以软材料仿生肌肉和神经元智能复刻人类肌肉柔韧特性，具备轻巧灵活、安全互动、易…

12-19

北京中关村科学城国际医谷开工，打造医疗健康产业集聚新高地

作为项目建设推进方，北京海新域城市更新集团相关负责人介绍，中关村科学城国际医谷项目将在产业链上游吸引顶尖研发机构和企业，汇聚创新源头力量；在中游通过公共技术服务平台降低研发门槛，助力创新的想法实施；在下游建…

12-19

《猎人克莱文》IGN仅评3分，高成本制作却换来低质口碑？

12-19

中兴通讯股价异动，公司称生产经营正常，无未公开重大信息影响股价

12-19

顺丰控股11月速运物流营收微增，供应链及国际业务增长超两成

12-19

澳门风情画轴展开，智界新S7穿梭其中成焦点

12-19

点击查看更多 +

全站最新

TCL万象分区技术：Mini LED电视画质跃升的新篇章

挪威电动车热销，特斯拉陶琳：寒冷地区电动车可完全替代燃油车

宝马Skytop M8 Targa限量版来袭，概念车终成真！

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

《黑神话：悟空》获赞，海信E8共绘中国文化出海新篇章

值得买科技荣获卓越发展大奖，创新驱动消费产业高质量发展

热门内容

本栏最新

芜湖造心脏，驱动国家级无人直升机救援平台展雄风！

神策智能运营新升级，如何助力企业实现高效精准营销？

顺丰航空引领！国内全货机首次SAF商业飞行成功落地

中央经济工作会议力推哪些新兴经济模式？

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

获得多项世界竞赛第一的百度大脑OCR技术 成为企业降本增效的“新法宝”

获得多项世界竞赛第一的百度大脑OCR技术成为企业降本增效的“新法宝”