当诸多媒体选择Hololens 发货作为微软开发者大会报道重点的时候,却忽视了微软的下一个战略转型:对话即平台
在微软Bulid 开发者大会开幕前,上周被玩坏的 Tay 又悄然上线,这也为微软 CEO Satya Nadella 演讲做了注解。对微软来说,在错失移动设备的巨大红利之后,依靠云计算、机器学习带来的基础研发优势,接下来微软要将赌一把Bot。
微软在Build2016大会上表示,未来将是一个充满聊天机器人的世界,为此他们推出了微软Bot Framework,能够允许任何人制作自己的聊天机器人,微软则提供“cognitive microservices”(认知微服务),该工具能够理解自然语言或者对图片进行分析,初期开放22个API,可用于集成到应用中。
重出江湖的Tay
在谈到 Tay 时,Satya Nadella 对彭博新闻的记者坦言:「我吓坏了以至于不敢问它任何事情,因为谁知道它会说些什么呢?我甚至可能理解不了。」他笑着说,但他真的不使用 Tay。
他说他更喜欢更有企业风范的 bot。在北京时间今天凌晨的主题演讲中, Nadella 告诉场下以及全球的开发者们:「我们正在汲取人类语言中的强大能量,并将其广泛的运用到电脑中去,我们认为这将产生重大影响,就像图形用户界面首次出现在桌面电脑或触屏首次出现在智能手机上一样。」
「我们致力于将最好的技术应用在产品中,就在上周,当我们发布 Tay 时,我们很快意识到这并未达到这个要求。」现场发出一阵笑声,不过 Nadella 继续严肃的说:「所以,我们要回去重头做起。」
Nadella 将其定义为「对话平台」。微软展示了 Bot 的多种应用场景,比如你可以使用文本与 Bot 对话,如 Tay;而更丰富应用则是则寄托于开发者们,比如当你使用Skype 时,会有 Bot 「主动」为你规划旅行路线或预定房间,抑或是盲人或视觉障碍者使用手机摄像头调取 Bot 出来,从而帮助这些人「看见」别人的表情或图书的内容。
所有 Bot 的开发工具和模版——Microsoft Bot Framework 都可以免费下载。开发人员可利用它将各种智能对话机器人集成到自己的应用中。微软已经开发出6种工具帮助程序员创建机器人,微软不仅希望程序员能够快速上手,按照 Nadella 的想法,他还要三明治店、干洗店、汽车公司乃至无编程基础的普通用户都能开发一款属于自己的 Bot。
微软为何开始钟情 Bot ?
Satya Nadella 两年前成为微软历史上第三位 CEO,在微软错失移动互联网的背景下,Satya Nadella 一上任就提出了「云优先、移动优先」的口号,大力推进以 Azure 为核心的云计算业务,成绩斐然。在2016 年 1 月底的微软第二财季财报中,微软云服务(Azure+office365)收入增长 5%,达到 63 亿美元,占到微软第二财季总营收的 26%(总营收为 238 亿美元)。如果考虑到微软在 2010 年才开始发展云计算业务,这也就意味着,在 Satya Nadella 转型理念的推动下,微软的云计算营收已经支撑起了整个公司四分之一的营收。
说起微软在移动尤其是手机领域的辛酸历史,Satya Nadella 有自己的一番看法,「人们自然而然的以为:『因为你没在手机应用商店中捞到甜头。』」手机的应用程序当然很适合查看某项服务,但在搜集、重组、优化并以自然的交互方式与用户互动方面,Bot 的作用更重要。如果你想查看你的预算开支情况,你需要打开(记账)的 App、等待你就加载出来所有的消费和收入。而通过一个基于某个聊天应用中的财务 Bot,你可能只需要一句话就能返回自己想要的结果。是不是很酷炫?
根据彭博新闻的报道,Nadella 从去年十月份才开始计划微软的战略转移,这也是他就任 CEO 以来,第一个真正属于自己的战略思考。
在从硅谷返回西雅图的两小时航班上,他与负责必应、Skype 、 Office 等应用和服务的陆奇和搜索工程部门副总裁 Derrick Connell 进行了会谈。陆奇拿出自己的笔记本电脑,向 Nadella 展示了一些自己正在开发的人工智能的想法。他描述了一遍背后的科学原理,Nadella 问这对微软的产品意味着什么。Connell 则向他展示了用人工智能强化过的新版本的 Outlook 电子邮件程序和 Skype。到飞机降落的时候,Nadella 决定,这就是微软的转型方向。
在早前的几个月,陆奇在中国期间与中国的学生和客户进行了深入交流,并实地了解到他们使用智能手机的方式。最让他印象深刻的是中国人使用微信的方式。微信从一个最简单的聊天应用,成长为一个类似操作系统的产品——用户可以用微信预订酒店、信用卡账单分期、预约医生、购买电影票以及在线购物。当越来越多的公司开始使用微信销售自己的产品时,它们雇佣人类阅读用户发来的聊天信息,并积极回复从而完成销售。
发信息「我想要两张周五晚上的《死侍》的电影票。」陆奇说,然后你就能收到一张带有时间和座位选择的交互图像,接下来,你只需要简单地点击购买,你就得到了一段取票的文本信息。然后你就可以去影院消费了,而且这样操作的也不只是年轻人,陆奇表示,他 80 岁的母亲也生活在「微信」中,这位住在上海的老人不信任网站,但她会在微信上购物和叫出租车。这些对话 Bot 的力量「有些已被微信发明出来,但现在 Facebook 看到这一点,很多公司都在打造类似的体验。」陆奇补充道,「我认为微软会扮演一个领导者的角色。」
对话式的 Bot 并非新鲜事物。第一个对话式的 Bot 可以回溯到早期的计算时代。MIT 研究员 Joseph Weizenbaum 在 1960 年代写出了一个名叫 ELIZA 的 Bot。90年代后期在互联网里为搜索引擎搜索网页索引的爬虫也是一种 Bot 。
Clippy
微软在90年代也曾尝试用 Bot 提高用户交互体验,其中一个便是类似大眼夹(Clippy)的 Office助手,但这个 Bot 很傻,它不知道何时出现,很多时候都是默认出现,也不会提出真正有用的建议,这个号称基于贝叶斯算法的 Bot 几乎毫无用处。
这一次,微软要给自己的 Bot 来点不一样的。
人工智能驱动的 Bot
正如陆奇所言,几乎所有的大公司都将对话 Bot 作为重要的产品,而人工智能成为其背后强大的推动力。过去几年,人工智能已经成为硅谷新的风向标。根据CB insight的统计,2015年,基于人工智能的创业公司共完成3亿美金的融资,而在五年前的2010年,人工智能公司的融资总额只有4500万美元。
以 Facebook 秘密开发的「M」为例,这是一个基于Facebook 聊天应用 Messager 里的对话 Bot,它可以帮你搜索、预订机票、递送免费咖啡、写歌、甚至画画。当你和它聊天时,「M 」会通过自动化、深度学习、人工智能相结合的技术架构,并结合人类「教练」的建议,从而完成在海量数据的挖掘整理,快速回复。
Facebook的M
而在微软今天发布的「对话平台(Conversations as a Platform)」,微软希望将人工智能更灵活、更自然地融入到用户的对话里。
第一,将 Cortana 作为Bot 的核心。当开发者在Skype 上开发一款 Bot,微软 Cortana 则可以从旁协助,甚至直接和机 Bot 进行沟通,让使用体验更顺畅。比如用户在为下一次的假期订机票旅馆时,Cortana 就可以适时地介入,从你过去的旅游经历、甚至是之前的聊天内容中,提供建议。
skype的演示
第二,HoloLens 开发者版本发布。微软不仅在新版本 Skype 里增加了视频通话功能,还将支持 HoloLens。作为目前唯一不需要外部摄像头、线缆、手机,也不需要连接PC,就可以提供自然全息计算的设备,Hololens 开发者版本的发售将给微软的 Bot 带来更多惊喜,这意味着用户可以在任何地点启动对话,并通过 Cortana 获取帮助或建议。比如日本航空正在开发一款HoloLens 应用,其想象力空间非常大。
第三,推出HoloLens 模拟器。与 Hololens 开发者版本发售的同时,微软还悄悄推出 HoloLens 模拟器,帮助没有买到 Hololens 的开发者开发相关应用。利用 Hyper-V 虚拟机器,开发者同时使用微软的 Visual Studio 开发工具就能做出类似于 HoloLens 上的功能。不再是依靠眼镜的环境输入,模拟器使用键盘和鼠标(或者Xbox控制器)进行控制,得到的回应和在 HoloLens 上操作一样。进行控制时就像你打游戏,使用键盘的 WASD 按键进行移动控制,移动鼠标调节摄像头。如果你打算开发全息应用,HoloToolkit on GitHub上提供很多脚本和组件,能够加快开发进度。
第四,开放更多认知技术。此次大会上,微软更新了一组机器学习工具,这些认知服务工具包共包含22项 API。其中的脸部识别程序也是去年朋友圈刷屏的「How old do you look」的基础技术,也包括去年11月推出的可侦测面部情感的API,还包括语音识别以及智能自定义识别API等等。开发者可以随时调用这些 API,将其加入到自己的 Bot 中。
第五,更简单的 Bot 开发工具。Nadella 告诉彭博新闻记者,「这(Bot 开发工具)几乎是我见过的最简单的一段代码。」一位微软工程师打开 Bot 基础模版,接着他添加了几行代码,从而让 Bot 和 Domino 披萨店的点单系统连接起来,并设置了几个选项,诸如披萨的尺寸和配料,然后这个 Bot 就完成了。试想一下,如果你在路上与朋友们用 Skype 聊天,而且每个人都想吃披萨,你就可以在不离开 Skype 的情况下快速预定披萨。
就在当天会议的最后,微软展示正在处在研发阶段的人工智能项目「Seeing AI」,利用计算机视觉和自然语言处理技术,通过这款下载在智能手机以及微软合作的Pivothead 智能眼镜的应用,盲人可以「看到」和「了解」他眼前的世界。视频中,当盲人工程师萨科戴上 Pivothead 智能眼镜时,滑动镜腿就可以拍下眼前看到的景象,而 Seeing AI 则可以帮助萨科识别出景象,并通过语音告诉萨科眼前是什么,例如「一位男人在玩滑板,一个小女孩在公园扔飞盘」。当萨科在与人会谈时,滑动镜腿拍照,「Seeing AI」还可以识别出面前坐客的年龄、性别以及情绪,让他可以向普通人一样参与到真正的对话当中。当萨科在餐馆点菜时,他可以拿出下载Seeing AI的智能手机,在人工智能的语音提示帮助下找到并对着菜单拍照,而Seeing AI可以自动读出菜单,帮助他选择自己想点的美食。
在错过移动互联网浪潮之后,微软的这一次的转型对公司的未来至关重要。而从此次大会第一天所发布的产品和技术来说,微软已经迈出了坚实的第一步,那么接下来呢?Nadella 比任何人都清楚实现这一目标有多么困难。可能还会有更多 Tay (不完美的产品)。彭博新闻记者记录一个细节:他靠在椅子上对自己的管理团队微笑道:「这很困难,对吧?」