——百度副总裁王海峰详解自然语言处理技术
“百度搜索‘张飞’,会看到右侧扩展栏显示‘赵云’为‘同事’关系;而搜索‘关羽’,会不可思议的在右侧发现‘貂蝉’为关二爷的‘同乡’!”王海峰老师的介绍引来了台下的阵阵惊叹。以上画面来自于一场名为《名家与你面对面》的活动现场。面对来自国内众多高校、研究机构以及相关单位的150余名与会者,百度技术副总裁王海峰博士妙语连珠、对NLP领域的各项技术更是如数家珍。
2014年9月24日晚,在中科院软件所的报告厅内,由中国中文信息学会和百度公司联合举办的《名家与你面对面》活动成功举行,百度技术副总裁王海峰博士做了名为“理解语言,拥有智能,改变世界”的主题演讲。中国中文信息学会副理事长兼秘书长孙乐研究员、百度校园品牌部总监张高博士、中国中文信息学会青年工作委员会主任百度高级研究员赵世奇博士也参加了讲座。同时,本次活动吸引了来自清华、北大、中科院等国内多所高校、科研院所及相关单位的愈150名听众,使得整个会场座无虚席。
自然语言处理(NaturalLanguageProcessing:NLP)是计算机科学、人工智能以及语言学的交叉学科,旨在解决计算机与人类语言之间的交互问题。这其中包括对自然语言的分析、理解、生成、检索、变换及翻译等方面。百度身为国际级的互联网企业,每发布一个产品,都会受到广大网民的广泛关注。从PC端到移动端,从网页搜索到各种新兴业务,NLP技术已应用于几乎所有百度产品。此次活动中,王海峰老师从百度的业务布局入手,同在座师生分享了NLP技术与应用的方方面面。
NLP基础技术
介绍百度NLP,自然要从NLP基础技术说起。在本次活动中,王海峰老师向大家展示了百度NLP在依存句法分析、语义角色标注、query理解与query改写等一系列方向上的技术进展,其中多项关键技术指标已达到国际顶尖水平。更为重要的是,在百度,这些NLP基础技术不会仅停留在研究阶段,更不会被束之高阁,而是已经切实的应用于百度的各项实际产品中。例如,在百度中搜索“演过还珠格格的台湾演员”,搜索引擎会展现出“陈志朋”等精准答案,这便得益于依存句法分析技术可以准确的分析出上述query中词语之间的关系,进而从实体知识库中准确的检索出答案。
知识图谱
知识图谱的一个重要用途,便是通过各种知识挖掘技术来分析、构建、绘制和展示实体背后的丰富信息以及实体与实体之间的相互关系。百度的知识图谱不仅如实呈现了实体之间的客观关系,而且还挖掘出了很多隐藏而有趣的关系来。例如,在百度搜索“张飞”,会发现搜索结果右侧诙谐地描述“赵云”为他的“同事”,这一说法看上去奇怪,仔细一想却又觉得妙趣横生。再比如搜索“关羽”,发现“貂蝉”与他的关系竟为“同乡”。好奇的笔者在网上搜索并分析了一下,才发现这一关系的确属实。上面的例子凸显出了信息抽取、知识挖掘等NLP技术带给搜索引擎结果的变化——更加智能,更加深入,也更加有趣。
深度问答
9月16日晚,在江苏卫视《芝麻开门》闯关节目的擂台上,百度研发的“小度机器人”不仅频频和主持人互动调侃,更是凭借迅速的反应和准确的回答勇闯四关。9月20日上午,在全国科普日的展览活动中,中共中央政治局常委、书记处书记刘云山等领导同志在看过小度机器人与技术人员的问答演示后,也对产品赞不绝口,表示肯定。在这些亮眼表现的背后,是百度NLP的深度问答技术造就了百度机器人的大脑。从问句理解到信息抽取,再到答案的生成与排序,多项NLP技术珠联璧合,才最终使得小机器人拥有了大智慧。不仅是小度机器人,这些技术更是已经广泛应用到百度搜索引擎等产品中,为用户带来了更好的搜索体验。
智能交互
让人与计算机更自如更便捷的交互是几代计算机研究者的梦想。而在互联网时代,百度正逐渐将梦想变为现实。百度NLP在智能交互技术与产品两方面齐头并进,取得了很多创新突破,实现了可以通过文字、语音、图片等多种形式进行交互的多模交互技术。其中,既包括在搜索、轻应用等产品中的对话式搜索、泛需求搜索等功能,也包括百度考霸、去哪儿订票等深度满足垂直领域需求的产品。
机器翻译
机器翻译是NLP领域最重要的研究领域之一,旨在实现不同语言之间的自动翻译,促进各国各地区的交流。百度NLP研发的机器翻译系统目前支持14种语言、36个语言方向的在线翻译,翻译质量国际领先。在外行人看来最不可思议的是,一群母语不是英语、更对阿拉伯语一窍不通的百度NLP工程师,竟能研发出世界级水平的英语-阿拉伯语机器翻译系统。然而这也正从一个侧面反映了百度NLP技术的深厚积累和实力。除了传统的机器翻译产品之外,机器翻译技术还被活学活用,开发出多款让人眼前一亮的新产品。例如,在一款名叫“为你写诗”的App中,输入图片,就能按照图片的内容基于机器翻译技术自动生成一首古诗,而且还相当靠谱。“花雾一行逍遥叹,侠骨柔肠气不凡。才情横溢人称赞,更待前路起波澜。”如果不告诉你,你会想到这是一首计算机自动生成的古诗吗?难怪这首诗被演员高梓淇在微博上晒出来之后,瞬间引发了网友的广泛关注和热议。
百度NLP工程师们的创造力绝不仅限于NLP技术本身,不久前在百度世界大会上亮相的“百度筷搜”和“智能围棋Bingo”同样是百度NLP部门倾力打造的项目。其中百度筷搜可以甄别食材安全,帮助用户清晰掌握食品信息,将危害拒之体外;智能围棋Bingo则已在9路围棋中达到准职业选手的水平,19路上也已有了击败业余段位围棋选手的战绩。可以说,百度NLP正在向人们一笔笔的描绘着智能世界的美好图景。
之后的互动问答环节将本次活动再次带入高潮。来自国内各大高校科研院所的老师和同学肯定不会放过这个宝贵的切磋交流机会,争相举手提出了各种问题,涵盖了NLP技术、百度商业模式、互联网产品、个人职业发展等方方面面,王海峰老师非常耐心的一一作答。其中,在一位同学问完一个技术问题后,王老师微笑着反问:“你是想让我简单回答,还是复杂回答呢?”引来台下会心的笑声。原来是这个同学的问题有些笼统,本可以给出一个简单一些的回答,但严谨的王老师还是希望同学问得再具体些,从而可以帮助这个同学真正地解答心中的疑惑。
会后,同学们纷纷表示,这次的活动非常精彩,只可惜现场交流的时间有限,希望有更多的机会和方式同百度的专家交流,问出自己的想法和疑惑的同时,也能知道百度最新的产品和技术。对此,百度的校园品牌部总监张高博士表示,为了充分发挥百度的社会责任,创造更多的社会价值,百度开展了一项开放研究计划,在openresearch.baidu.com这个平台上,大家不仅可以更多的了解百度,而且还可以亲身参与到百度的项目中来。欢迎大家走近百度、走进百度!