ITBear旗下自媒体矩阵:

搜狗输入法的前世今生

   时间:2012-02-15 10:49:10 来源:互联网编辑:星辉 发表评论无障碍通道

如今,在所有的中文文字软件当中,搜狗输入法无疑是最成功的产品。搜狗输入法究竟有多成功?一组数据可以说明:用户量超过3 亿,市场份额80%以上,80000 多款输入法皮肤,104 项专利(其中国际专利超过10 项)。

“刚开始做输入法的时候,我们不敢想象它会成为一款有3 亿用户规模的产品。应该说,目前搜狗输入法的成绩远超当时的预期”,搜狗桌面事业部总经理杨洪涛坦陈。那么,为什么只有搜狗做成了输入法?

“不靠谱”的创意

“当时决定做搜狗输入法的原因其实很简单,并没有公司高层的战略规划之类的因素。当时搜狗缺少项目,我们把这个项目报了上去,上面批了,然后就做了搜狗输入法。”

搜狗输入法的创意其实来自互联网之外。2005年,本科刚毕业、在太原一家国企做机械设计的马占凯发现了一种“省力”的中文输入方法:只要在搜索框里输入相应的拼音(比如zhoujielun),获得搜索引擎相应的提示(“您要找的是不是:周杰伦”),复制粘贴过来即可。由此,他产生了一个大胆的想法:用搜索引擎做输入法。

接下来,马占凯给国内做搜索引擎的公司逐一发送电子邮件,提出了“搜索+输入法”这个创意,最后却都石沉大海,只有搜狗接纳了他,不过也不是因为输入法。当时的搜狗仍然专注于搜索,而马占凯在电子邮件中对搜狗搜索提出了很多产品细节的改进建议,引起了搜狗的重视。

在2005 年,谁还会想到进入输入法领域呢?早在上世纪九十年代,微软就相继收购了智能ABC 并开发微软拼音,捆绑在Windows 操作系统(中文版)之中。此后还有一些来自个人程序员的作品。到了此时,市场格局已定,智能ABC、紫光拼音、拼音加加和微软拼音占据了90%的市场份额。

进入搜狗的马占凯一开始被分到了搜索项目组,但是他并没有忘记当初的构想,一有机会就去游说搜狗的高层,最后说服了当时的负责人王建军和王小川。

此前,身为搜狐研发中心的搜狗团队虽然拥有搜狐最主要的研发力量,却一直没有机会在市场上证明自己的价值。作为搜索行业的后来者,搜狗想在百度、谷歌领先的情况下获得重大突围几乎没有可能。搜狗还先后做过工具条、音乐客户端等产品,但都没有成功。

输入法对于搜索业务是否会有促进?杨洪涛透露:“当时的设想是在输入法上放个搜索框,或者按个快捷键去搜索,希望通过这种方式给搜索带来流量。”事后证明,这个设想不靠谱。不过,就是因为这个“不靠谱”的想法,搜狗输入法项目才得以批准。

靠谱的产品

输入法立项之后,一开始的想法是收购当时广受用户好评的紫光拼音,结果却没有谈成。这样一来,搜狗只能从最基础的阶段开始自主研发。如果当时收购紫光成功,如果一开始只是把输入法当成流量来源而不是战略级产品,也许第一件事情就是想办法把紫光的用户转变成搜狗搜索的用户。这样,搜狗也就不可能从最基础的阶段做研发,输入法也不太可能转变成搜狗的战略级产品。

一开始,搜狗输入法的研发人员并不多,第一年只有几个人专职参与,但同时复用了搜狗搜索的技术积累。当时在清华大学人工智能实验室读博士的杨磊成了搜狗输入法项目的第一批研发人员。

事实上,最开始做输入法的时候,杨磊的心里相当没谱——输入法这种基础产品如何才能做好?直到设计出最初的语言模型之后,他才第一次体会到了其中的妙趣。

与其他输入法不同,搜狗输入法是第一款为互联网而生的输入法——它通过搜索引擎技术,将互联网变成了一个巨大的“活”词库。网民们不仅仅只是词库的使用者,同时也是词库的生产者。正是由于互联网的思维方式,使得搜狗输入法得以后来居上。

“我随意在网上找了一篇新闻,然后用搜狗输入法对着敲了一遍,几乎没有错别字,当时就给我一个特别震撼的感觉。”杨磊回忆道。当时正值超级女声最火的时候,最流行的关键词是“李宇春”和“张靓颖”。“以往的输入法都打不出这些词,我们把互联网词库引入之后,这个问题就解决了。”

搜狗输入法正式推出的时间是2006 年6 月5 日,过了4 天,德国世界杯就开幕了。一时间,伴随着网民的热议,罗纳尔多、齐达内、巴拉克、格罗索等足球明星的名字都进入了搜狗词库。这些热点事件和热词进一步提升了搜狗输入法的口碑,并在网民中传播了开来。

持续的改进

一个互联网产品要取得成功,好的开始固然重要,持续的改进更为重要。当然,这个过程非常艰难。在解决了最核心的互联网词库和中文语言模型问题之后,最令人抓狂的就是如何提升搜狗输入法在Windows 下的兼容稳定性。作为美国人开发的操作系统,当时的Windows 对整个东亚语言的开发支持都不够完善。“跟其他应用软件不一样,输入法需要与很多第三方软件打交道,如果兼容性差不仅会直接导致软件崩溃,甚至会造成系统宕机。”杨洪涛说,“当时微软开发文档中对输入法相关的接口描述很不清晰,也欠缺标准。我们好通过逆向工程,不断分析、摸索和试错,逐渐找到了过河的道路。”

另一方面,虽然互联网上内容丰富,但是却是鱼龙混杂。网友在发布内容时有意无意地会写出很多错别字,而搜索引擎把这些内容抓取之后,如果不加筛选地放入词库,就会产生大量的错误词语,错音错型的尤其多。

为了解决这个问题,除了技术手段之外,很多时候只能通过人工鉴别的办法来解决。为此,搜狗专门请了北大中文系毕业的刘媛尊带队整理词库,把几十万个词条一个个进行人工审阅和校对。

这个工作从2006 年底开始,一直进行了3 个月,一本《现代汉语词典》被她翻了不知道有多少遍。“基本上所有的词条我都打了一遍,当时最大的感觉就是如果再有机会加高考,语文试卷的错字识别我肯定轻松拿下。”刘媛尊回忆道,“记得当时我们建了一个邮件列表,每天发送错词更新,就像非典时期的病例报告一样。一开始错词的数量每天有一百多个,到后来减少到了几十个、十几个、几个。”就是凭着这股愚公移山的精神,所有的词条都被人工过滤了一遍。直到有一天,他们发现邮件列表里已经连续一个星期都没有发现错误的时候,才知道自己竟然把这个不可能完成的任务完成了。

“帮忙”的谷歌

此时,互联网巨人谷歌竟然也看上了输入法这个极其中国化的领域,希望将其打造成谷歌本地化的一个标志性产品。

搜狗推出输入法后不久,谷歌也启动了输入法的开发。对于一款软件产品来说,这个时间差并不能构成太大的领先优势,更何况对手还是谷歌这个互联网巨头。

2007 年4 月4 日,谷歌拼音输入法正式上线。不过,搜狗很快就发现,谷歌输入法涉嫌盗用搜狗输入法词库。随后,搜狗公布了双方拼音输入法的一些词库重词,不仅一些错词一模一样,谷歌输入法词库中竟然还出现了搜狗开发团队的一些生僻名字。很快,各家媒体都对“谷歌盗用搜狗词库”进行口诛笔伐,网民更是铺天盖地质疑号称“不作恶”的谷歌;4 月9 日,谷歌不得不在官方博客上向搜狗公开道歉。

通过这次事件,搜狗输入法一时间吸引了全社会的目光,得以声名鹊起。而对于搜狗来说,更重要的收获就是搜狐决策层对输入法的重视程度比以往高出了不少,不仅投入增加了好几倍,还将输入法上升到了公司战略级产品的高度。

通过这件事情,搜狗也更加重视知识产权的保护工作。在此之前,搜狗已经成立了专利工作组。谷歌侵权事件之后,搜狗加强了专利的申报工作。如今,搜狗输入法已经向国家知识产权局申报了100 多项的专利,其中还有超过10 项的国际专利。这些专利已经构成了强大的竞争壁垒,使得竞争对手难以超越。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version