您的位置:首页>>业界动态

听说数据标注行业缺“中立”平台,京东金融竖起了大旗

发布时间:2018-06-14 10:09:36  来源:互联网    采编:徐彬  背景:

  数据标注是人工智能进行模型训练必不可少的一环。这是将最原始的数据变成算法可用数据的过程:原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用。

  上述概念阐释的背后实际上潜藏着一个正在茁壮成长的商业机会,尤其随着AI行业的发展,优质数据甚至可能是公司发展的壁垒。

  按照人员规模,现在的数据标注行业分为小型工作室(20 人左右)、中型公司以及巨头企业。它们之间有各自的短板:专业的数据标注、采集小团队没有标注工具,开始逐渐向拥有更好技术资源的大平台靠拢。与之形成对比的是,花费巨大资源打造专业全职标注团队的数据公司,却也受困于人力成本不得不把一些业务外包给小团队。

  诸如巨头企业,虽然在努力搭建平台,但一方面更多是以消化内部需求为主,另一方面在人员培训和质量管控上,更多是流程化操作,缺乏合理的运营模式。

  “没有一个标准。”基于上述的调研结果,在京东金融众智平台项目负责人看来,数据标注行业比较混乱。

  在这种行业状况下,京东金融要做一个“中立”平台,成为需求方和最终标注团队之间的连接者:为小型工作室提供标注工具,同时也对需求方提供数据标注方案。

  “京东众智”就是这样一个产物,它是专注于人工智能数据标注和采集的科技平台。上述负责人特意强调了“科技”二字,这意味着该平台并不是传统的众包模式,而是通过自身的科技能力,优化标注流程,提升标注效率,保证标注质量。

  “大部分算法在拥有足够多的普通标注数据的情况下很容易将准确率提升到 95%,但从 95% 再去提升到 99% 甚至 99.9% 就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。”

  京东众智的科技能力恰好表现在提高标注质量、提升标注速度、降低标注成本以及保证数据安全四个方面。

  标注质量为先,而它又与标注人员息息相关。针对专业标注人才培养的流程,他们甚至要跟一些公司建立数据标注师认证标准,对不同人员评估其标注等级。这符合京东众智“三擎互驱”的理念:让最专业的人用最专业的工具,在严谨的工作流程中完成数据的标注,并且由选拔出来的高水平专家进行审核,保证正确率。

  准确率与客户的要求也有很大关系,比如众智平台的图片标注准确率在实测状态下能达到 99%,为了确保准确性,他们有 ACC 和抽检等四层过滤流程。

  在保证数据标注质量的前提后就要比拼标注速度了。

  当下 AI 解决方案落地速度普遍较慢。“传统的方式是有 AI 需求,然后需要先获取样本数据进行数据标注,标注之后再做模型训练。”但在数据标注之后如果不满意,还需要把数据返回重新优化,上述负责人表示,这样的方式导致从方案确认到落地可能需要 1 个月甚至时间更长。

  众智平台的标注工具很大程度上提升了标注速度。“鲁班模板标注工具”可以组件化去配置。如果不同的公司对标注数据有不同需求,他们只需调整几个组件的配置就可以完成操作。

  京东众智 Pre-AI 方案与传统方案的对比

  更重要的是京东众智提出的“Pre-A.I”方案。此方案在标注过程中会不断添加智能元素,机器做预标注,标注人员只需在此基础上做细微的调整即可。

  这些技术的应用在很大程度上节省了标注时间,而在 AI 市场竞争激烈的环境中,速度对创业公司而言尤为重要。“原来完整的标注流程如果是 1 个月的话,我们可能 3、4 天就可以交付了。”该负责人如此评估众智平台的标注效率。

  数据标注速度提升的直接结果是标注成本自然会降低。不过,在行业一片混乱的数据运营模式下,数据安全是需求方最为关注的问题。

  对于政府、银行等企事业单位而言,它们担心数据被转手,一般要求数据必需在自己的环境内进行标注。为此,他们提供了数据与流程分离方案。数据与流程分离方案针对客户自有标注平台和客户没有标注平台两种情况。

  京东众智 DCS 方案流程

  对那些数据标注需求比较大的大公司,众智平台可以打通京东金融和客户两者的标注平台,同时为标注流程有严格的质量把控。需要注意的是,标注环境实际上还是在客户环境下。对于没有标注平台的客户,京东金融提供了一套名为“众智星”的标注系统,它可以让数据不出客户环境就能完成数据标注。

  据负责人介绍,该平台已于去年 8 月正式上线。目前平台上数据标注注册人员在 3 万以上,而数据采集的注册人员更是超过了 10 万人。

  “京东众智旨在为 AI 行业提供最优质的基础数据,希望在不久的将来,国内大部分的 AI 公司都可以使用我们提供的高质量标注数据训练出更优质的模型和算法。这些模型和算法不仅要服务国内的用户,更要把中国的 AI 能力服务于全世界。为全球的人工智能行业助力是我们的初心。”负责人如是说。




关注ITBear科技资讯公众号(itbear365 ),每天推送你感兴趣的科技内容。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
网易新闻联合BOSS直聘,开启探秘“大厂”之旅
在互联网圈儿里,人们习惯将某些行业的头部领军企业统称为“大厂”,有些求职者为进&ldqu...
日期:11-23
中国在AI时代再造“两弹一星”  百度等科技巨头挑起大梁
为加快推动中国新一代人工智能产业创新发展,促进人工智能和实体经济深度融合,近日,工信部印发《...
日期:11-23
UC海内外打通电商,5.5亿曝光为Lazada双11引流
第十个天猫双11已经成为全球的双11,成就了全球买、全球卖、全球付、全球运、全球玩。在全球卖方面...
日期:11-23
危化品运输的「定心丸」传化智能物流让风险可视可控
「迎新创新、协同共享」,11月22日,由中国物流与采购联合会主办的「2018年中国化工物流行业年会」...
日期:11-23
传化智联列入国家多式联运示范工程项目
就在11月20日,交通运输部与国家发展改革委公示了第三批24个多式联运示范工程项目名单,传化智联打...
日期:11-23
屏厂LG也要做可折叠手机了:一口气注册多个商标
2019或许会迎来可折叠手机的爆发期,三星身为屏厂同时又是智能手机制造商,已经公布了作品,而同样...
日期:11-23
诺基亚宣布进行管理层调整 加速5G网络布局
为了瞄准5G机遇,电信网络制造商诺基亚公司将把移动网络和固定网络业务合并,组成一个名为接入网络(...
日期:11-23
马上就要到2019年了 5G离我们还有多远?
眼看着2018年就只剩三十几天了,今年的旗舰手机也基本上都发布了。手机市场上最近体积比较多的一个概念...
日期:11-23
Apptopia:Facebook新产品Lasso与TikTok“几乎相同”
短视频应用TikTok在全球范围内获得了强劲的发展势头。近日美国CNN引用移动应用研究机构Sensor Tower...
日期:11-23
Kodak Alaris出席“赋能·升级”2018中国现代办公行业年会
Alaris S2040扫描仪强势中国首发
  11月21日,中国西安—11月19日至11月21日,Kodak Al...
日期:11-23
当下智慧园区“软实力”如何提升
在工业4.0与智能制造的驱动下,大型企业建设自身园区网的任务已经不再简单,它不仅要满足高性能、高...
日期:11-23
苏宁国际诠释“Global Community of Curators”生活哲学
苏宁国际亮相第三届米兰国际家具(上海)展览会
  苏宁国际盛装亮相第三届米兰国际家具(上海)...
日期:11-23
“精灵旅社”那群搞笑的怪物精灵又来了!还送来华为视频9大豪礼
2018年感恩节跟小雪在同一天相遇
  除了团聚、感恩、狂欢、“吃鸡”、等雪
...
日期:11-23
LG为旗下可折叠智能手机申请了三个商标
LG一直在与三星竞争推出第一款可折叠智能手机,而三星已经展示了他们的产品,LG仍然在研发他们的智...
日期:11-23
全球首条5G网络下的微博 来自小米林斌!
5G究竟有多热,看看各大智能手机厂商的宣传便知一二。此前OPPO公布了其智能手机产品通过5G网络上网...
日期:11-23
前美团大将创业水滴卖保险  三级火箭能否击穿保险业痛点?
一、「仗还没打完,别想这些事。」
  这是沈鹏第一次跟王兴和王慧文表示未来想要离开美团、...
日期:11-23
HTTPS也不安全?No,只因没有避开这个误区
当我们在咖啡馆连上WiFi打开网页和邮箱时,殊不知有人正在监视着我们的各种网络活动。在打开账户网...
日期:11-23
美团股价今日一度下跌至14%,新业务持续投入亏损25亿人民币
11月22日,美团点评发布2018年第三季度业绩,总收入为191亿元,同比增长97.2%。总收入的增长得益于...
日期:11-23
QQ浏览器跨界顺丰“一搜直达”,丰富信息浏览生态
在双十一这个快递行业最忙碌的档口,QQ浏览器和顺丰宣布跨界合作,在“快”这件事上再添新...
日期:11-23
第75届中国教装展落幕,回顾希沃三大新品
聚焦校园小应用,发现教学小数据。 11月19日,由希沃独家冠名的第75届中国教育装备展示会圆满落幕。...
日期:11-23