在人工智能领域,一场静悄悄的革命正在发生。曾几何时,大数据训练被视为提升AI智能的关键路径,但如今,这一方法的潜力似乎已触及天花板。ChatGPT背后的核心人物Ilya Sutskever在最近的一次采访中直言不讳,指出通过扩大预训练规模来提升AI性能的做法已经遭遇瓶颈。然而,他同时也强调,选择正确的方向比以往任何时候都更为关键。
在这一背景下,业界开始探索新的出路,向量数据库逐渐成为焦点。不同于传统数据库,向量数据库专为处理非结构化数据而生,如图片、音频、视频和文本等。这些数据的特点在于结构不规则,信息密度大,且难以用传统的二维表形式表现。随着移动互联网的迅猛发展,非结构化数据的数量呈爆炸式增长,占据了人类数据总量的绝大部分。
星爵,向量数据库创业公司Zilliz的创始人,早在2017年就预见到了这一趋势。当时,大模型仍处于萌芽阶段,传统计算机视觉和自然语言处理领域正面临泡沫破裂的风险。在这样的背景下,星爵决定创办一家专注于AI时代数据库产品的公司。他提出,算力、算法和数据是AI时代的三大核心要素,而数据则是最有价值、最核心的资源。
Zilliz的首款产品Milvus,是全球首个向量数据库。它通过将非结构化数据转化为向量形式,并利用向量检索技术,实现了对海量数据的快速分析和处理。2019年,Zilliz将Milvus在GitHub上开源,用户只需简单的配置和代码,就能实现以图搜图等功能,响应时间极短。
随着ChatGPT的横空出世和大模型的普及,向量数据库的重要性日益凸显。特别是在解决大模型幻觉问题上,检索增强生成(RAG)框架成为了业内公认的解决方案。RAG通过将特定领域知识和实时更新信息向量化并存储,以“外挂”形式补足了大模型的知识短板。而向量数据库,作为RAG检索系统的核心,成为了大模型落地过程中的基础应用工具。
OpenAI等巨头也纷纷加入向量数据库的行列。2023年3月,OpenAI宣布通过插件集成向量数据库,以实现大模型的长期记忆功能。这一举动瞬间点燃了向量数据库市场的热情,数十亿资金涌入这一赛道,Zilliz的Milvus在GitHub上的Star数也迅速增长。
然而,向量数据库的价值远不止于此。随着Scaling Law效率的放缓,越来越多的人开始意识到大模型的有损压缩本质。在压缩过程中,细节、知识体系和长尾知识往往会被忽略或简化。而向量数据库则能够对这些细节进行更高程度的还原和存储,从而弥补大模型的缺陷。今年爆火的ColPali RAG、iRAG、VisRAG等,都是向量数据库在大模型领域应用的典范。
在企业AI部署落地中,RAG的占比也在逐年上升。根据Menlo Ventures对600家美国企业的调研显示,2024年企业AI部署中RAG的占比已高达51%。向量数据库与RAG几乎成为了大模型落地的默认最强外挂。
然而,在数据库领域,企业一旦选择了合适的产品,往往会因为数据迁移成本高、与现有系统集成紧密等因素,在很长一段时间内不会进行更换。因此,如何选择合适的向量数据库,成为了困扰无数大模型应用开发者的难题。
全球知名独立研究机构Forrester发布的《2024年第三季度向量数据库供应商Wave报告》,为这一市场提供了清晰的江湖座次。在这份报告中,Zilliz等创业公司凭借创新能力和市场份额,成功跻身领导者象限。报告指出,企业在选择向量数据库时,应重点关注支持广泛的核心向量功能、简化向量的数据管理和以高效形式实现性能与规模的交付等方面。
以Zilliz为例,其在向量维度、向量索引、性能和可扩展性等方面表现出色。通过支持磁盘索引和Partition/Namespace/逻辑分组等功能,Milvus能够轻松扩展并合理分配资源。同时,它支持的索引类型多达11种,能够适应不同数据特点并提升查询准确性。
Zilliz的成功,不仅得益于历史进程的助推,更离不开其技术远见和长期主义的坚持。从2019年推出产品化开源向量数据库开始,Zilliz就致力于构建生态护城河。如今,它已成为大模型时代的新型基础设施,为全球数万家企业提供服务,广泛应用于各个领域。