ITBear旗下自媒体矩阵:

罗永浩高调站台的讯飞是传说 关于语音输入的四个误区

   时间:2016-10-21 16:08:27 来源:站长之家编辑:星辉 发表评论无障碍通道

看相声还是看手机?当罗永浩“意外”抖出了某语音输入的包袱后。一把刷屏好手之称的罗永浩这次是回归广告界了吗?或许是。那么,因直播惊艳而走火的“老干部”科大讯飞真如老罗展示“上了天”吗?

事实上,在语音识别这个几近成熟的市场内,技术和产品的胜负早已有定夺。要了解语音输入和语音识别,应该先走出四大误区。

误区一:语音识别是个新领域吗?

1950年,计算机之父图灵在《思想》杂志上发表了一篇题为《计算的机器和智能》的论文。在这篇文章中图灵提出了影响至今的图灵测试,后来,计算机科学家们认为,如果计算机实现了语音识别、机器翻译、文本的自动摘要或者写作、战胜人类的国际象棋冠军、自动回答问题中的一件事情,就可以认为它有图灵所说的那种智能,所以语音识别是科学家们从上个世纪50年代就“庖丁解牛”的领域。

当科学家进行语音识别研究之初,最初是陷入了计算机需要模拟人脑的误区。直到20世纪70年代,在IBM华生实验室,贾里尼克的团队花了4年的时间,开发了一个基于统计法和数据的语音识别系统后,语音识别有了巨大飞跃,识别率迅速提高到90%以上,同时语音识别的规模从几百词上升到两万多词。从此,语音识别就从实验室走向实际应用了。

误区二:讯飞是个toC的公司吗?

当然,从用户群来说,哪个产品的用户数多,则代表着该产品被用户的认可度更高。

事实上,科大讯飞一直是个2B(面向企业用户)服务的公司,将自己的人工智能服务授权给其他企业是主要的商业模式。虽然科大讯飞在最近几年也开始发力2C(面向消费者)的产品,比如智能音箱、录音宝、录音笔等硬件,以及锤子发布会火了的“语音识别”,但这些产品在市场上的占有率并不算高。

那么,到底什么语音输入法是2C用户为主,被用户使用次数最多、认可度更高的呢?数据会说话。答案是历经五年发展的搜狗语音输入。据了解,截止目前,搜狗输入法总用户量已经超过5亿,其中有相当部分的用户会用到语音识别功能,每天拥有超过1.9亿次的语音请求,是中国语音输入量最大的应用工具。

误区三:没数据就能做好语音输入吗?

“我的办公室里每开除一个语言学家,我的语音识别系统错误率就能降低一个百分点!”当大神贾里尼克说出这句话的时候,他就意识到语音识别和语言语法关系不大,而是和语料数据息息相关。

要提升语音输入用户的产品体验,必然需要积累大量的数据。搜狗语音识别背后就是由搜狗搜索引擎大数据支持,加之积累了十年的搜狗输入法云词库数据,这样才提升了用户的使用体验,从大数据的角度来看,科大讯飞在短时间是难以赶超搜狗的。

搜狗和科大讯飞最大的不同是,搜狗是一家互联网企业,其互联网的产品布局更多,服务更全面,语音识别不仅能用于搜狗语音输入法,还能用于搜狗搜索、搜狗地图,一方面采集更广泛数据,另一方也将用户体验提升至一个更高的水平。

误区四:语音识别上屏是初亮相

“天啦噜,老罗一边演讲,一边字幕就上墙了!太神奇了!”能有类似感慨的不能不说是语音识别界的“小白”。

今年7月,搜狗公司CEO王小川在极客公园“奇点·创新者峰会”,就首秀了演讲内容在现场实时生成滚动字幕,同步的字幕引起了现场观众极大的兴趣,纷纷起立拍照。在演讲结束后,现场语音识别成果立刻生成了完整的演讲稿,观众通过扫描二维码即可阅读。利用搜狗公司的语音识别技术,王小川的演讲内容显示为文字的准确率已高达97%以上。

此外,搜狗语音输入的新功能“语音修改”也首次展示。用户对着手机说出一段文字后,再通过自然语言的方式将语音识别错误的地方进行修正,赢得了现场热烈的掌声。因为搜狗语音交互引擎“知音”所具备的利用自然语言交互的语音修改能力,搜狗语音不仅要实现“能听会说”,还要求具有“能理解会思考”的能力。

看清误区,讯飞语音输入不再上天了吧。当然,事实是不比不知道,一言不合就上视频。

搜狗和科大讯飞语音输入识别效果PK:

http://card.weibo.com/video/h5/detail?object_id=2017607:f785d6a844cb68d7a4094e1dd454eb42&sso_redirect=1&hassetsso=1&from=singlemes

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version