近日记者获悉,在国家高技术研究发展计划(863计划)云计算关键技术与系统(一期)重大项目中承担了以公众汉语服务为主的搜索引擎研制的搜狗取得重大技术突破,其所研制的全搜索技术将能从根本上解决暗网数据的搜索问题,从而使搜索引擎能够搜索到的数据量增加几个量级。有关专家认为,搜狗全搜索技术通过云和端相结合的方式解决暗网搜索问题。这在全球范围内属于重大创新,并将搜索引擎的发展引领到一个新的高度。
沉睡的暗网
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网信息爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针。传统搜索引擎应运而生,为大部分用户解决了信息获取的难题。但是随着互联网进一步发展,海量的信息不断累积,并且逐渐由网络表面渐渐下沉。这类信息往往很难被传统搜索引擎抓取,因此形成了业内人称之为“暗网”的概念。
据估计,暗网隐藏的信息要比表面网络内容大好几个数量级。如果把表面网络比作水面上漂浮的冰山,暗网数据就是冰山下那庞大冰体,露出水面的体积往往只占其下冰体的百分之一甚至更少,如何监测并利用这些沉睡的内容成了目前搜索引擎行业亟待解决的问题。
为解决暗网问题,各大搜索引擎厂商都提出了各自的解决方案,Google采用暗网表层化的方式来处理,百度提出了“阿拉丁”计划,但是结果仍然不理想。暗网表层化只能解决暗网搜索1%左右的问题,离真正解决暗网搜索问题尚有差距。而“阿拉丁”也遭遇技术瓶颈,需要通过“手工”方式补充大量“暗网”中的信息,主要采用通过商务洽谈的方式获取第三方内容提供商的基础数据,之后再通过建立各种垂直搜索的方式整合到通用搜索中,其搜索结果取决于百度与其他公司商务谈判结果以及各种垂直搜索领域的技术研发进展。
针对暗网问题,搜狗公司以搜狗搜索和搜狗浏览器两方面的技术和用户平台为基础,应用云计算的原理,在“云-端”架构下对搜索技术和架构进行革新。首先,借助针对用户行为和网站特点的分析,对互联网暗网的海量入口进行自动化的挖掘和组织,并通过语言模型、用户行为反馈实现对用户查询意图及强度的智能理解,最终在“云-端”架构环境下,实现互联网暗网数据及服务资源的按需分配,为用户提供所需的暗网搜索结果。
搜狗“全搜索”揭开“暗网”
何先生最近想买一只新的iPad2送给女友做生日礼物,令他惊奇的是,当他在搜狗搜索iPad2的时候,在结果页面竟然直接看到了京东、淘宝、新蛋、亚马逊中国等网站有关iPad2的情况,包括图片,价格,库存数量,内容丰富,一目了然。这就是搜狗“全搜索”给用户带来的良好体验。