ITBear旗下自媒体矩阵:

云知声CEO黄伟:海量数据和运算能力突破让AI火了

   时间:2016-05-27 17:51:33 来源:中国网 编辑:星辉 发表评论无障碍通道

5月27日消息,物联网人工智能服务公司云知声CEO黄伟于26日下午出席华兴资本主办的“一π即合·华兴π对”CEO 峰会,在人工智能论坛上与启明创投和联想之星等知名投资机构一起畅聊人工智能的行业与未来。

黄伟表示,虽然AlphaGo点燃了科技圈和投资界对人工智能的热情,但人工智能(AI)真正能火起来是天时地利人和,核心上有两个技术原因:那就是海量数据的积累和运算能力的突破。

第一点, 互联网和移动互联网的发展使得我们今天具备了以前不敢想象的海量数据,我以前在摩托罗拉当时做产品的时候,当时每个语言版本的容量只有100个小时。而今天,像云知声的平台每年有2亿次调用,每天有几百亿的数据,这是过去一个大公司所有的数据量的几十甚至上百倍。

第二点, 第二, 以前我们在实验室做研究的时候,你会发现计算容量不够用,以前计算用PC,但是我们现在有GPU集群,运算能力达到了一个突破。

不过,黄伟同时也认为,人工智能要想替代人类,路还很长。“ AlphaGo就是一个顺势而为的事情,但是这个事情只是证明技术的发展到了一定阶段肯定会有突破,但是这个突破并不是以后所有的事情都可以被机器所代替。当然这个临界点是在逐步逼近的,二十年以后我相信大多数今天的职业都会被机器人所替代。 ”

以下是论坛问答环节的文字实录:

主持人:大家好,我是华兴资本的英航,请嘉宾自我介绍一下。

黄伟:大家好,我是云知声的黄伟,云知声是2012年成立的,我们是一个专注物联网人工智能服务的公司,核心技术是智能语音识别和语义理解。会场旁边有一位漂亮的小姐一直在敲字,讲话的过程当中可以把文字实时记下来,这就是语音识别技术。我们现在除了语音识别技术之外还有语义理解:我不光知道你讲的是什么内容,还知道你讲的什么意思。另外,我们还具备远距离信号的捕捉、降噪等各方面的技术。

基于这些技术,我们构建了云端芯一体的产品体系,不光有云端服务,我们还能把技术应用在芯片里面。这个技术在今天已经在智能家居、智慧医疗、教育等方面进行了落地,有很多人不知道云知声是做什么的,我们躲在很多企业的后面,比如说乐视、华为,我们是这些企业背后的服务商。云时代的来临,我相信云知声会迎来一个很好的发展机会,我们希望通过迭代更新的技术为我们企业提供更好的服务。

主持人:谢谢黄总。

主持人:科技行业投资前些年有几个项目从融资速度来讲大家没有那么熟知,最近跟AlphaGo斗胜炒得很火,但是国际上一些技术试点和垂直应用方面,想在此问一下各位嘉宾,从国际和国内的差距来看,我们现在有哪些差距,或者说我们国内的有适合机会在哪里?

黄伟:AlphaGo这个事大家如果不感兴趣的话以为它是个骗子或者是忽悠,我2004年从科大博士毕业,读书的时候我们学校里有哪个教授是做神经网络的,或者是做大数据挖掘的,大家一般都认为是这个方向是没有前途的,因为基本上学生毕业就得转方向。在过去十多年里面融资非常难,我们真实经历过这个事,冷板凳坐了很长时间。

虽然AlphaGo点燃了科技圈和投资界对人工智能的热情,但人工智能(AI)真正能火起来是天时地利人和,核心上有两个技术原因:那就是海量数据的积累和运算能力的突破。

第一, 互联网和移动互联网的发展使得我们今天具备了以前不敢想象的海量数据,我以前在摩托罗拉当时做产品的时候,当时每个语言版本的容量只有100个小时。而今天,像云知声的平台每年有2亿次调用,每天有几百亿的数据,这是过去一个大公司所有的数据量的几十甚至上百倍。

第二, 以前我们在实验室做研究的时候,你会发现计算容量不够用,以前计算用PC,但是我们现在有GPU集群,运算能力达到了一个突破。

不过,人工智能要想替代人类,路还很长。AlphaGo就是一个顺势而为的事情,但是这个事情只是证明技术的发展到了一定阶段肯定会有突破,但是这个突破并不是以后所有的事情都可以被机器所代替。当然这个临界点是在逐步逼近的,二十年以后我相信大多数今天的职业都会被机器人所替代。

今天这个时间点讲中国和国外的差距,我觉得有两个方面,一个方面是在原创技术,我相信中国还是走在前面的,无论是在图象还是语音,我们可以看到很多最源头的创新,多半是欧美,当然是以美国为主。但是在实用性方面,我个人认为我们应该是比欧洲领先的,云知声参加过几次全球最顶尖的语音评测,包括IBM等都在里面,云知声拿过很多次全球第一名,说明我们至少在工程实验方面至少不比国外差。再比如说我们参加图象会议还是语音会议,你会发现有一半都是华人,但是从这个角度来讲,我们今天在技术人才队伍这一块,中国已经做得非常不错了。

另外一点,在人工智能方面,中国的机会非常大。20世纪70年代应用在统计领域,70年代做了一个4000次的识别系统,一直到在李开复做出这个语音识别系统之后又研究了30年,一直到2011年,基于统计模型的云识别依然在不断的更新,只不过说我们从以前只能识别4000个词到现在识别几万个词,在这个框架下不断的进步,我相信今天之后我个人认为这个云框架依然会延续,算法也会不断地优化和迭代,但是算法优化的前提是什么?数据。中国是一个人口大国,以前数据量少得可怜,只有不到100小时,而且还是请人关在一个小房间里去录。这个和同声传译不一样,今天的IT时代我们可以通过各种手段实时每天获取大量的数据,中国有这种基础,我相信有这个数据量做依托,在跟随式的技术方面我们并不比全国任何一个国家的技术差,我相信中国国家在技术、创新和产业升级方面会做得越来越好。

主持人:人工智能火了之后,民间好多说法说美国大片里很多人工智能都实现了,很快就无所不能了,但是现实当中很多方面还达不到那么美好。那目前到底发展到什么程度了?哪些能做到,还有哪些更远预期达不到的?学习场景里面真正能够在商用或者是线上能用?希望大家进行探讨。

黄伟:我们一方面要看到大数据对人工智能带来的推动和愿景,但同时我们要非常清醒的认识到现在的大数据不是真正的大数据。一方面,今天的麦克风是不是足够好,比如说我离着很远的时候这个麦克风能不能采集到很清晰的声音,或者说晚上的时候一旦能够很清晰的看到,这个物理方面还有局限性。第二,对机器人本身,既使是上面这些全达到了,但是都需要人工干预的,这个就意味着我们今天对大数据的利用效率是非常低的,这个一方面需要一些云上的突破,我今天这些训练数据能不能不需要人类干预,直接拿过来就可以用,但是我们现在在做这方面的努力和尝试。如果说你的准确率只有70%,100个字会错30个字,那对不起这个数据显然是不能用的,我们行业里都可以把它识别语音做95%、96%以上,如果我们做到98%、99%,意味着100个字里面错一两个字的话,这个不需要什么干预了,可以直接拿来用,这样的话这个系统就真正进入一个加速的运营状态,这是我对余总的补充。

我们小时候看的一些电影,有很多技术我们现在已经在用了。我记得我看过一个电影,一个大亨坐在车里面,前面的人按了半天车不启动,然后他说了一句“开始点火”,然后车就动了,这就是语音识别。其实今天这个技术已经开始用了,包括前一段时间渣打银行已经在使用语音识别技术,民生银行的客服系统用的是云知声的系统。很多时候科幻其实并不遥远,至于说一些更加玄幻一点的电影,人和机器可不可以谈恋爱?这个稍远一些。

黄伟:其实这个人工智能分几个阶段,感知、认知和通用人工智能。比如说我们通过麦克风,通过摄像头,通过其他的一些传感器收集信号,这个是我们对物理世界的感知。没有感知就没有认知,而且人工智能到最后不是分散性的,比如说我们做语音智能和图象智能,但是人脑智能是一个综合智能,不光是基于听到的、看到的,可能还有基于多种情况,综合在一起。情感是另外一种层次,所以我觉得在过去看到很多的东西现在已经出现,但是还有一些事情会发生。客观一点,今天相对比较确定性的是动作机器人很快就会替代人类工作了,更高的是一个情感层面的可能还需要一段时间,大家看没看过一个大片叫《绝密飞行》?它是讲无人机的,那个片子非常不错,它就是讲一个无人战斗机,里面有人也可以无人,但是整个的操作性你可以理解为一个交互,甚至这个战斗机还有情感,这个就是中国和美国下一代的战斗机,一定是这种形式。科幻电影里面的已经发生,在未来也即将发生。

主持人:刚才说的都是特别向上的、朝气蓬勃的内容。我们再来探讨一下商业,感知类的内容包括语音识别和图象识别,如果直接2C,用户量比较少,没有一定的载体可能就会搁浅。如果2B的话给他提供这个功能,但是2B的厂商都是大厂,配件的能力或者是供应商的价格(比较高),所以从人工场景的商业模式方面想听听创业者和投资人的看法,未来我们应该怎么做?

黄伟:你这个问题不光在人工智能领域存在,在所有方面都会遇到。这个跟中国整个商业环境有关系,人们的认知就是软件不值钱、技术不值钱,虽然我是搞技术的,但是我买正版软件的次数不多,我相信很多中国人都是这样的,但是我相信这个行业会变得更好,包括中国的互联网创业已经从以前的运营模式创新、产品创新到今天的技术创新,我相信我们每个人包括我们的客户都会越来越意识到这个价值,愿意为这个去买单。

作为很多创业公司来讲的话,云知声到下个月刚好四周年,我们一路上跌跌撞撞走过来,我们对这个感触特别深,我们几个创始人都是博士毕业,技术人员比较看重的是技术本身,但最后再好的技术也需要价值的体现。技术发展是一个比较长的周期,中间是有一些阶段性的可以落地的,你可以选择一些落地的产品去做,在这个过程当中我们也做了很多的市场探索,以前最开始我们是SDK的分发,一方面做用户体验不一定非常好,就像靠软件不能去感知问题的,你不能给用户提供特别好的体验,用户当然不愿意买单了。去年我们推出了一个硬件模组,一方面我们能够提供更好的用户体验,哪怕这个设备离我很远,我一说话就解决了,哪怕在放音乐我让你停、换一首歌都能响应,用户体验会更好。除了前面讲的低功耗、高性能之外还有很高的指标,低成本。我们是怎么做的?我们就两个麦克风,八个麦克风成本太贵了。只用两个麦克带来的挑战是什么呢?技术难度非常大。八个麦克风就意味着我有更多的信号源进来,我有更多的空间处理。如果我给你一个信号,里面又有人说话,又有背景音乐,不能分开的。我们希望把成本降低,这是一个前提条件,但这个其实对我们的技术挑战更大。当然云知声不是说做一个低成本的硬件模块,我们认为这是我们的中间目标,一方面我们做一个低成本、低功耗、高性能的模组提供给我们客户,一方面可以给我们带来收入,一方面可以感知数据帮助我们进一步优化引擎,优化系统。整个公司就能进入一个良性循环的过程,这是我对这个问题的看法。

黄伟:我觉得做技术类创新还是以2B比较好,因为我从2012年到现在一直有人跟我说你怎么不做APP?你怎么不做单品?对我来讲,如果我去做一个APP或者一个单品的话,那我很多的精力会花在产品设计上,或者保持每周一次的迭代,这个不是我的强项。它这里有太多不确定的因素,但是技术一定要迭代,目前的时间段是大家在积累数据、积累技术一个非常关键的周期。如果这个时候不是把资源百分之百都投入到技术储备和研发,那我的竞争是没有的。人工机器人基础之上做什么东西?太多种了,我认为把技术做好,我们相信未来更多的公司在我们之上可以把更多的产品做出来。我们要把基础性的工作做好。

主持人:因为时间有限,请稍微点评一下,今年我注意到一些创业公司跟自己的投资人做了一个联合的基金,所以我觉得很多传统的企业也有一些关注,想听听观点。

黄伟:我们自己有这样的一些感觉和需求,因为我们是专注做智能语音的技术,有很多比我们更小的创业团队围绕着这个技术,他也希望我们有一些比较紧密的关系,比如说有一些资本关联,对我们来说的话我们也希望能够看到一些比较好的团队,我们投一些在这方面,让我们能够在这方面有一些很好的体验。我觉得这应该是个方向,是有帮助的。

主持人:谢谢嘉宾听这么长的时间,给嘉宾一个问题的时间吧。

提问:有一个问题我一直比较困惑,有不少企业在做图象识别、声音识别,基本上每家也都说自己的技术比别人要更好,我想请教几位专家,到底在技术上的领先程度差异有多大?如果技术上的差异不大,比如说在某一个技术应用产品上的话,把这个事长期做下去,品牌的优势、渠道的优势,一些传统的厂商也会迅速得到这些东西,创业企业是不是能够在这里面获利?

黄伟:在语音和图象上,在每个领域上都有几拨公司在做,但是这里会分第一梯队、第二梯队,第一梯队来说的话它的技术会比较接近,区别点就在于因为大家业务模式不一样,对技术的优化也不一样。云知声是属于第一梯队的,在第一梯队里,百度的语音技术更多偏向于移动搜索,它的语言模型是朝着这个范围去做的。再比如说微信下面也有一个团队它也做云技术,但是它优化的目标是聊天,因为业务模式不一样,选择领域不一样,方向也不一样。无论是语音识别、图象识别,我们单纯去讲识别是没有意义的,这个识别率一定是你在什么环境下、什么产品下,这个本身可能就是我们每个商业公司的一个选择问题。

随着我们在每个自己选择的主战场上不断突破,在这个技术领域你的壁垒会越来越高。我重点做云端识别,有的公司可能做的是终端的识别,云知声的低能耗和快速响应,这个可以形成优势。

当然不同梯队之间是有差别的,对于同一梯队的公司,技术识别准确率上下可能就差零点一二个百分点,都是96.5%、96.6%左右,这个指标反映的是你的技术能力,但是能力往哪发动这取决于公司定位。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version