一点资讯田明军：深度融合搜索+个性化推荐背景下的兴趣引擎构架详解

时间：2016-12-05 17:36:19 来源：互联网编辑：星辉 发表评论无障碍通道

由InfoQ中国团队推出，面向高端技术管理者和架构师的全球架构师峰会(ArchSummit)日前在北京国际会议中心举行。来自腾讯、滴滴出行、一点资讯等互联网企业的技术专家受邀出席并做主题演讲。

一点资讯高级技术总监田明军发表主题演讲

在本次大会上，一点资讯高级技术总监田明军详细诠释了深度融合搜索和推荐引擎对获取用户阅读兴趣、实现信息精准分发的必要性，并以一点资讯为例，从技术框架和产品理念角度，分享了兴趣引擎将二者有机融合的心得。

他认为，搜索和推荐两种获取信息的途径和体验缺一不可。一点资讯的兴趣引擎系统通过结合了用户搜索行为所触及的全网数据，不断学习用户的兴趣再进行推荐，并由用户主动“订阅”深化这一兴趣，建立兴趣之间的连接点，从而打通用户对信息的主动表达和被动接受两条通道，使信息获取更加高效、精准，为全方位提升用户体验打下了坚实的基础。

以下为田明军演讲内容精编版：

大家早上好，非常荣幸今天有机会与大家分享一点资讯关于融合搜索和推荐引擎的一些思考和实践。

单一的搜索或推荐引擎不利于全面满足信息分发需求

在移动互联网时代，搜索和个性化推荐都是用户获取信息的两种重要的方式：搜索通常伴随着用户的明确表达，用户输入关键词即可找到自己想要的答案;反观推荐，则是用户通过产品呈现的内容进行非目标性的兴趣浏览。但这两种体验是不能互替的，单纯根据历史浏览记录进行的个性化推荐并不能了解用户某时刻的自身想法，而另一方面，也很难根据每天一两次搜索行为总结出用户的长期规律。

所以从产品角度来说，搜索和推荐的体验二者不可或缺、关系紧密。这也是我们致力于实现二者融合的原因。

但需要注意的是，二者在意图表达方式、训练模型等方面存在着巨大差异，基于这些差异点，我们不能简单的用其中一种系统来实现搜索和推荐融合的目的。

搜索和推荐的融合之路应该怎样走?

对于融合的解决之道，一点资讯选择在搜索和推荐引擎之间加入了一个基于用户兴趣的任意关键词订阅环节。通过搜索发现用户所查询的答案同时，我们也提炼、扩充出针对用户兴趣的表达，并以此固定沉淀在用户画像里。因此，搜索让个性化推荐层面，增加了一条高效地获取用户兴趣的途径。

反过来说，通过推荐系统把共性的有趣、有料的内容呈现给用户，通过推荐产品收集到用户更多层面的反馈，从而得到这些内容的普适性特征。基于这些特征的挖掘，我们也能够对内容有更深刻的了解。而再将搜索体验中加入并有效利用这些共性特征，也更加强化、提升了搜索的品质。

接下来，我将从兴趣引擎的整体系统架构中，选取了几项关键技术点，阐述一点资讯将搜索和推荐内容体验真正融合的方法：

异构索引引领检索效率提升针对搜索+推荐深度优化

为实现深度融合的目的，针对搜索和推荐不同的服务特点和系统性能要求，首先我们提出了异构索引结构。

从上图可以清楚地看出异构索引的数据来源和组织形式。我们可以从图的底部可以看到，产生异性索引数据的平台一分为三：数据平台、编辑运维平台和内容平台。图片顶部则展示了不同数据的索引构建所采用的不同技术。

内容平台方面，对外网抓取的内容和自媒体平台生产的内容，我们建立了通用的倒排索引。

在左侧的数据平台，则通过对用户行为的挖掘，产生基于协同过滤信息的挖掘的推荐列表，以及针对不同人群放置的热文列表，这部分我们使用通用的KV数据库存储。

中间这部分的数据来源于内容平台和编辑运维平台，体现了技术与人工的结合。这部分数据存在内容的竞争机制，变化比较灵活，使用了自建的支持排序列表的索引结构。

大家也许会问，为什么会有这样的区分?这主要是基于优化检索性能角度的思考。根据关键词对倒排索引进行查询的方式非常成熟，完全够能够满足搜索系统的需求，然而，传统的倒排索引却很难对推荐需求的几十维以上的特征进行查询。

在这个基础上，我们做了两个优化：一是针对稀疏的频道，实现了支持WAND(一种介于AND和OR之间的索引查询操作符)检索系统加快召回内容的效率;而对于稠密的头部频道，则通过开发频道文章索引库，维护从频道到排序内容列表的映射，将线上查询压力转移到线下，提升检索的效率。

以unified feeder为核心的内容处理平台解决写入难题

刚才看到方方面面的索引，接下来，我们必须要解决里面索引的写入的问题。这就需要在统一的内容处理平台，把这些内容写到异构的索引结构里面。

我们的内容处理平台的核心之一，则是unified feeder系统，这是内容处理平台与索引系统之间传递信息的桥梁。

在unified feeder实际工作中，首先针对不同的输入数据，我们存入了很多不同的索引库，这个工作通过统一的配置与模板中心进行管理，可以方便的维护和扩展。此外，unified feeder内部有一个checkpoint系统，在各个关键索引内容写入之后，会向checkpoint系统发送验证信号，如果任何数据写入失败，checkpoint系统会有记录，系统可以自动进行数据的重新写入。这种方式有效的解决了系统容错和异构索引数据一致性的问题。

双层架构的自适应索引召回突破异构索引挑战

接下来我将讲解在有了以上数据基础之后，针对上面的搜索和推荐请求，我们如何通过自适应索引召回技术，从不同的索引里面获取数据?这主要面临三个方面的技术挑战——决策需要调用的索引后端、异构索引召回效率，以及可扩展性与开发效率。

上图是大家整个召回系统的结构框架。通信模块和存储模块集成了一些异步IO通信机制和缓存机制，提升了需要到多个索引库里面查询时并发的性能，提升了查询效率。

另外两个技术难点的解决主要靠意图分析和查询生成器，根据搜索和推荐不同的请求去适配到下游不同的索引库里面去取内容，同时在系统中的解耦算法和工程方面，提升系统可扩展性和并发工作的效率。

查询生成过程引入了逻辑层和物理层的概念，物理层即索引池，物理层对外暴露的是异构索引系统的一些具体查询的API接口，通过这些接口的调用真正完成具体的索引对内容的获取。而逻辑层更多体现在算法上，通过对查询的意图分析，转化为逻辑层一个或多个从索引中获取信息的意图，例如热点，兴趣图谱等。逻辑层到物理层的映射可以理解类似于搜索引擎里query rewrite的过程，每一逻辑层的意图被翻译成若干物理层索引API的调用。

以逻辑层的兴趣图谱为例，通过这个用户画像里面的具体兴趣，比如，某位用户对“互联网思维”感兴趣，基于兴趣图谱的获取，它会把这个兴趣点转化成频道推荐索引、搜索系统、人工运维的精选池三方面的物理获取途径进行查询，从而召回一些关联兴趣频道的内容，相关源的内容以及人工需要去展现出的内容。

总之，通过这样一种把逻辑层和物理层分开的方式，有效分离了算法逻辑设计和实际索引物理访问之间的耦合，达到了让二者工作更好并行的效果。

双模型排序框架满足搜索+推荐需求

最后和大家快速过一下我们为支持深度融合搜索和推荐，在排序框架和算法产品策略支持方面的一些工作。

在排序框架上，我们现阶段主要支持两种模型更新框架，一是周期性batch更新模型的框架，二是支持online learning的准实时模型更新框架。能够满足现有的搜索和推荐方面在排序方面的需求。

工作流服务框架支持算法产品策略灵活调整

在算法产品策略方面，因需求灵活多变、对系统开发效率要求较高，我们引入了一个基于Akka actor model的流式的服务框架，采用全配置驱动的方式动态生成工作流，从而达到对产品逻辑、算法策略方面的快速支持。

今天的分享由于时间原因很快就要结束了，在摸索如何融合搜索引擎和个性化推荐系统我已经走过三四年，这其中有许多我过去的思考以及在一点资讯团队所做的实践方面的工作。整个兴趣引擎要做的工作还非常复杂且有挑战性，也非常欢迎对兴趣引擎感兴趣的同学能够与我们有一些更多的交流。

【ITBEAR科技资讯】4月13日消息，近日，华为常务董事余承东与小米创始人雷军就手机支架的必要性展开了一场热烈的讨论，这场讨论也引发了网友的广泛关注。余承东在华为智界S7的发布会上表示，他最初对于车载手机支架的存在感到困惑，认为这是因为车载导航系统的功能不足

【ITBEAR科技资讯】4月12日消息，华为技术有限公司最近成功申请了一项重要的通信专利，该技术能有效保证信道占用时间的连续性，避免因跨信道占用时间而引发的数据丢失问题。据悉，此专利覆盖了一种全新的通信方法、装置、计算机可读存储介质以及程序产品。其核心技术在

【ITBEAR科技资讯】4月12日消息，前日夜间，大疆公司全新推出的Avata 2无人机正式亮相，为消费者提供了裸机及两种不同配置的电池套装选择。具体价格及配置如下：裸机版售价为2988元;单电池畅飞套装，内含飞行眼镜3、穿越摇杆3以及1块飞行电池，售价为5988元;而三电池畅

【ITBEAR科技资讯】4月11日消息，索尼官方今日正式公布，备受瞩目的2024年索尼电视及家庭影院新品发布会将于4月18日隆重举行。全球发布会将在零点准时开启，而中国区的发布会(直播)则定于晚20:00与大家见面。今年的发布会口号与去年“为娱乐而生”的主题有所不同，索尼

【ITBEAR科技资讯】4月11日消息，据相关媒体报道，阿里巴巴创始人马云今日在阿里内网发布了一篇名为《致改革致创新》的长文，对阿里巴巴过去一年的改革创新成果给予了高度评价。这也是马云自五年前退休以来的首次长篇分享，详细阐述了他对公司改革创新及展望未来的观点

【ITBEAR科技资讯】4月11日消息，近日有报道称，苹果的重要代工厂富士康或将迎来管理层的大调整。据悉，富士康正在积极探讨引入轮值CEO制度的可行性，此举被视为公司管理层改组的重磅策略，意在长远地培育公司领导人才。尽管轮值CEO制度在全球范围内并不十分普及，但行

作为家电领域德系匠心的代表，成立于1899年的美诺Miele，至今已走过125年的漫漫征途。百余年间，秉承“匠心品质，超越时代”这一刻入品牌DNA的精神，美诺不断突破自我，诠释卓越，以品质佳作，书写家电发展历史。“爱一事，终一生”，匠人精神无问东西。值此125周年之际

【ITBEAR科技资讯】4月10日消息，今日下午，字节跳动官方账号发布声明，针对媒体关于公司利润增长及数据的传言进行辟谣，明确表示相关报道不实。早前，有外媒报道称字节跳动在2023年的利润飙升约60%，甚至超过了腾讯控股和阿里巴巴集团控股的增长速度。这一消息似乎表明

【ITBEAR科技资讯】4月10日消息，近日，腾讯音乐娱乐集团(TME)与长城汽车联合举办了一场研讨会，并正式宣布启动战略合作。在这次合作中，腾讯音乐为长城汽车颁发了“AI 座舱先锋合作伙伴”证书，双方将共同致力于智能座舱中AI音频技术的研发与应用，通过TME旗下产品为车

【ITBEAR科技资讯】4月10日消息，近日，有知情人士透露，字节跳动在2023年的利润实现了惊人的增长，飙升约60%，这一数字不仅超越了腾讯控股和阿里巴巴集团控股的增长，更彰显了TikTok所有者在经济低迷时期的强大韧性。据悉，这家全球估值最高的初创公司，在过去一年中销

【ITBEAR科技资讯】4月10日消息，近日，台积电公布了其2024年三月份的营收情况以及一至三月的累计营收数据。据数据显示，三月份台积电实现了1952.11亿元新台币的营收，环比增长7.5%，同比增长更是高达34.3%。而在一至三月的累计营收方面，台积电累计实现了5926.44亿元新

【ITBEAR科技资讯】4月10日消息，LG电子近日宣布，已与企业工会就本年度薪水和福利待遇调整达成了一致意见，并在内部发布了相关公告。据悉，今年的平均工资涨幅定为5.2%，相比去年的6%略有下滑。这一调整方案不仅涉及到基础薪资的增长，还包括了追溯调整3月份的工资。对

【ITBEAR科技资讯】4月10日消息，美的集团与蔚来汽车在安庆的威灵汽车部件工厂达成了一项重要战略合作。两大行业巨头将在新能源汽车零部件、自动化技术服务、数字化建设等多个领域携手并进，共同探索低碳可持续园区及智慧物流的新路径。此次签约仪式得到了双方高层的高

【ITBEAR科技资讯】4月10日消息，金山办公在近期发布了一站式AI办公平台WPS 365，该平台全面覆盖了企业日常办公的基本需求，从文档创作到即时通讯、会议、邮件，再到AI应用，标志着文档处理套件正式升级为一站式AI办公。此次发布会上，金山办公推出了面向企业和组织的WP

【ITBEAR科技资讯】4月10日消息，近日有消息人士透露，京东近期在内部进行了多次讨论，重点探讨如何进军短视频领域。据称，京东高层已就此议题组织了多次小范围讨论，并最终达成共识，计划对短视频领域进行重大投入，其中包括高达10亿量级的现金补贴。此举意在顺应当前

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
合作咨询QQ：642361(微信同号) 争议稿件处理QQ：42503264
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1
Copyright © 小熊科技资讯 2007-2021 ITBEAR.COM.CN All rights reserved.