您的位置:首页>>业界动态

百度宣布在语音识别技术上超越苹果和谷歌

发布时间:2014-12-19 11:55:19  来源:网易科技 木秀林   采编:徐丽娟  背景:
百度宣布在语音识别技术上超越苹果和谷歌

  12月19日消息,据《福布斯》网站报道,今年5月当美国华裔人工智能专家吴恩达(Andrew Ng)加入中国互联网公司百度担任首席科学家时,他对他及他的团队在新开设的加州桑尼维尔实验室的研究内容有点讳莫如深。但他还是忍不住透露在智能手机时代语音识别是关键兴趣领域。

  吴恩达也是前谷歌研究人员、斯坦福大学教授和Coursera联合创始人。今天,常常被称为中国谷歌的百度透露了他的初步想法。吴恩达和科学家Awni Hannun领导的百度研究院10人团队,在康奈尔大学图书馆arXiv.org网站发表论文称,他们提出了更准确的识别语音的新方法。在苹果Siri和谷歌语音搜索等服务中语音识别都非常重要。

  吴恩达称,百度的Deep Speech在测量语音识别系统的错误率的标准基准上,击败了其他技术如谷歌和苹果的技术。特别是,Deep Speech在嘈杂环境下工作比其他技术更出色。当然,在现实世界中语音识别真正有用才是关键。吴恩达称,测试显示Deep Speech在嘈杂环境下比多个其他语音识别系统,包括谷歌Speech API、wit.ai、微软必应语音和苹果Dictation要好,在单词错误率上要好10%以上。

  两位大学教授发表了支持百度的言论。卡耐基梅隆大学工程学助理研究教授伊恩·莱恩(Ian Lane)表示:“百度研究院最近的工作有可能颠覆语音识别未来的表现。”该公司要求在论文发表前不得透露细节,因此无法联系谷歌、苹果和其他人发表评论。

  与其他语音识别系统一样,百度的技术也是基于人工智能的一个分支“深度学习”。该软件试图以非常原始的形式模拟大脑皮层神经元的活动,因此深度学习系统是学习识别声音、图像和其他数据以数字化形式呈现的图案。吴恩达在采访中表示:“第一代深度学习语音识别技术达到极限。”百度团队收集了9600人的约7000小时语音,主要在安静环境下收集。不过有时也让说话者头戴耳机,听到嘈杂的环境声音,然后改变他们的音调或嗓音。

  然后,该团队利用声波叠加的物理原理,在这些语音样本中加入了约15种噪音,如餐馆、汽车和地铁中的环境噪音。这实际上将语音样本放大到10万小时数据。吴恩达称,这比当前的语音识别系统要简单的多。他们使用一系列模块分析语音的音素和其他部分,这常常要求使用统计概率系统Hidden Markov Models(隐马尔可夫模型)亲手设计模块。

  吴恩达称,百度的系统用在递归神经网络或模拟相互连接的神经元上培训的深度学习算法,取代这些模型,使系统变得更为简单。然而,真正让这个方法起作用的是使用很多图形处理器单元如英伟达的芯片的强大电脑系统。这些处理器并行工作时,能比标准电脑处理器更快速和更经济地训练语音识别模型,比吴恩达在斯坦福大学和谷歌使用的系统快40%左右。

  他表示,“这些算法很重要,但大部分原因是规模”,不仅要求新的电脑系统而且需要处理大量数据。没有这种速度,处理所有数据不现实。他称,新系统比当前其他GPU系统都要尖端,“我们将进入语音2.0时代,这只是开始”。吴恩达认为,对于缺乏读写能力的人,语音识别更为重要,因为他们使用互联网更喜欢说而不是输入词条。

  他称:“让他们与我们说话是关键。”他引用最近在中国出现的搜索词条为例:“嗨,百度,别来无恙?昨天中午我在街角吃了面条,明天还会卖么?”吴恩达承认这是很难回答的问题,但他认为改进语音识别将是关键。随着物联网的发展,各种设备都将在线。他设想有天他的孙子会奇怪,我们曾经需要电视遥控器和有着无法响应语音命令的微波炉。他表示:“语音是物联网的激活技术。”

  吴恩达拒绝预测百度需要多久才能将新的语音识别技术整合到搜索和其他服务中。但被问及是否要很多年时,他快速回答到“以基督耶稣的名义发誓不会!”因此似乎可能明年就会出现。该技术可能应用的“探索”项目是百度的Cool Box,一个语音搜索音乐的系统。吴恩达和他的约30人团队的工作,将在百度跻身顶级互联网公司行列中发挥作用。该公司当前主要在中国市场经营,但瞄准在国际上扩大业务,开发世界级语音识别、翻译和其他功能。




关注ITBear科技资讯公众号(itbear365 ),每天推送你感兴趣的科技内容。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:网易科技

本文评论
闪电狗——城配下半场开赛,该怎么玩?
11月23日下午,罗戈网以“城配下半场玩法”为主题的物流沙龙在京举办,物流沙龙是中国物...
日期:11-24
网易新闻联合BOSS直聘,开启探秘“大厂”之旅
在互联网圈儿里,人们习惯将某些行业的头部领军企业统称为“大厂”,有些求职者为进&ldqu...
日期:11-23
中国在AI时代再造“两弹一星”  百度等科技巨头挑起大梁
为加快推动中国新一代人工智能产业创新发展,促进人工智能和实体经济深度融合,近日,工信部印发《...
日期:11-23
UC海内外打通电商,5.5亿曝光为Lazada双11引流
第十个天猫双11已经成为全球的双11,成就了全球买、全球卖、全球付、全球运、全球玩。在全球卖方面...
日期:11-23
危化品运输的「定心丸」传化智能物流让风险可视可控
「迎新创新、协同共享」,11月22日,由中国物流与采购联合会主办的「2018年中国化工物流行业年会」...
日期:11-23
传化智联列入国家多式联运示范工程项目
就在11月20日,交通运输部与国家发展改革委公示了第三批24个多式联运示范工程项目名单,传化智联打...
日期:11-23
屏厂LG也要做可折叠手机了:一口气注册多个商标
2019或许会迎来可折叠手机的爆发期,三星身为屏厂同时又是智能手机制造商,已经公布了作品,而同样...
日期:11-23
诺基亚宣布进行管理层调整 加速5G网络布局
为了瞄准5G机遇,电信网络制造商诺基亚公司将把移动网络和固定网络业务合并,组成一个名为接入网络(...
日期:11-23
马上就要到2019年了 5G离我们还有多远?
眼看着2018年就只剩三十几天了,今年的旗舰手机也基本上都发布了。手机市场上最近体积比较多的一个概念...
日期:11-23
Apptopia:Facebook新产品Lasso与TikTok“几乎相同”
短视频应用TikTok在全球范围内获得了强劲的发展势头。近日美国CNN引用移动应用研究机构Sensor Tower...
日期:11-23
Kodak Alaris出席“赋能·升级”2018中国现代办公行业年会
Alaris S2040扫描仪强势中国首发
  11月21日,中国西安—11月19日至11月21日,Kodak Al...
日期:11-23
当下智慧园区“软实力”如何提升
在工业4.0与智能制造的驱动下,大型企业建设自身园区网的任务已经不再简单,它不仅要满足高性能、高...
日期:11-23
苏宁国际诠释“Global Community of Curators”生活哲学
苏宁国际亮相第三届米兰国际家具(上海)展览会
  苏宁国际盛装亮相第三届米兰国际家具(上海)...
日期:11-23
“精灵旅社”那群搞笑的怪物精灵又来了!还送来华为视频9大豪礼
2018年感恩节跟小雪在同一天相遇
  除了团聚、感恩、狂欢、“吃鸡”、等雪
...
日期:11-23
LG为旗下可折叠智能手机申请了三个商标
LG一直在与三星竞争推出第一款可折叠智能手机,而三星已经展示了他们的产品,LG仍然在研发他们的智...
日期:11-23
全球首条5G网络下的微博 来自小米林斌!
5G究竟有多热,看看各大智能手机厂商的宣传便知一二。此前OPPO公布了其智能手机产品通过5G网络上网...
日期:11-23
前美团大将创业水滴卖保险  三级火箭能否击穿保险业痛点?
一、「仗还没打完,别想这些事。」
  这是沈鹏第一次跟王兴和王慧文表示未来想要离开美团、...
日期:11-23
HTTPS也不安全?No,只因没有避开这个误区
当我们在咖啡馆连上WiFi打开网页和邮箱时,殊不知有人正在监视着我们的各种网络活动。在打开账户网...
日期:11-23
美团股价今日一度下跌至14%,新业务持续投入亏损25亿人民币
11月22日,美团点评发布2018年第三季度业绩,总收入为191亿元,同比增长97.2%。总收入的增长得益于...
日期:11-23
QQ浏览器跨界顺丰“一搜直达”,丰富信息浏览生态
在双十一这个快递行业最忙碌的档口,QQ浏览器和顺丰宣布跨界合作,在“快”这件事上再添新...
日期:11-23