抖音近期采取了一项在国内互联网行业中罕见的举措:全面且深入地公开了其算法的运行机制。这一举动不仅涵盖了算法的技术细节,还通过线上网站和线下公开课的形式,向公众详细解释了从基本原理到具体模型的方方面面。
抖音在“安全与信任中心”网站上汇总了相关信息,并在北京举办了一场由算法工程师亲自讲解的公开课,以通俗易懂的方式复盘了算法的所有细节。这种透明度,对于一家面临算法黑箱质疑的互联网公司来说,实属不易。
在仔细研读抖音公开的所有内容后,不难发现,当前市面上许多非技术类媒体关于算法的讨论存在明显偏差。这些偏差并非主观歪曲,而是基于过时信息。例如,许多文章仍在讨论短视频平台如何通过给内容和用户打标签来进行匹配,但实际上,这种做法早已被淘汰,取而代之的是基于特征向量的数学统计。
抖音的算法工程师在公开课上指出,现代推荐算法不再依赖有限的标签来理解内容,而是通过分析用户的互动行为(如点赞、观看时长、评论等)来预测用户可能感兴趣的内容。这种方法的核心在于机器学习,它通过建立评分系统,在海量数据和算力支持下,尽可能准确地为用户推荐高评分内容。
在机器学习领域,推荐算法的成功很大程度上归功于其预测能力。这与当前热门的大模型行业中的“预测”原理相似,例如ChatGPT在对话中不断预测下一个词汇,尽管它并不真正理解对话的语义内容。同样,抖音的算法也不需要理解视频的具体内容,而是根据用户的反馈来优化推荐。
面对信息爆炸的时代,算法成为了包括抖音在内的所有平台不可或缺的分发技术。据IDC报告显示,全球每年产生的网络数据量已达到惊人的175ZB,远远超出了历史上任何一个时代的信息处理需求。抖音每天新增的视频数量以亿计,而用户每天能消费的视频数量有限,因此,如何确保用户看到的都是他们感兴趣的内容,成为了算法需要不断优化的核心问题。
在这个过程中,“召回”概念起到了关键作用。它通过将数以亿计的内容逐步缩小到用户可能感兴趣的范围,从而确保用户能在有限的浏览时间内看到最符合他们兴趣的内容。这一过程不仅依赖于复杂的数学模型,还需要算法工程师不断调试和优化。
然而,尽管算法在推荐内容方面取得了显著成效,但公众对算法的误解仍然普遍存在。其中最常见的误解包括信息茧房、算法造神以及短视频泛滥等。实际上,平台并不希望助长信息茧房,而是致力于推荐多元化的内容以提高用户活跃度。同时,算法也并非流量至上的工具,而是受到机器和人工双重治理机制的约束。随着抖音平台的发展,中长视频也逐渐获得了更多展示机会,这得益于算法的不断优化和平台的积极推广。
抖音敢于公开算法细节的举措,不仅体现了其对透明度和用户信任的承诺,也为整个行业树立了榜样。通过打开天窗说亮话,抖音让更多人了解了算法的真实面貌,从而消除了不必要的误解和担忧。这种开放和透明的态度,对于促进互联网行业的健康发展具有重要意义。