滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

后Scaling Law时代，向量数据库如何重塑大模型基础设施格局？

时间：2024-12-12 19:16:41 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在人工智能领域，一场静悄悄的革命正在发生。曾几何时，大数据训练被视为提升AI智能的关键路径，但如今，这一方法的潜力似乎已触及天花板。ChatGPT背后的核心人物Ilya Sutskever在最近的一次采访中直言不讳，指出通过扩大预训练规模来提升AI性能的做法已经遭遇瓶颈。然而，他同时也强调，选择正确的方向比以往任何时候都更为关键。

在这一背景下，业界开始探索新的出路，向量数据库逐渐成为焦点。不同于传统数据库，向量数据库专为处理非结构化数据而生，如图片、音频、视频和文本等。这些数据的特点在于结构不规则，信息密度大，且难以用传统的二维表形式表现。随着移动互联网的迅猛发展，非结构化数据的数量呈爆炸式增长，占据了人类数据总量的绝大部分。

星爵，向量数据库创业公司Zilliz的创始人，早在2017年就预见到了这一趋势。当时，大模型仍处于萌芽阶段，传统计算机视觉和自然语言处理领域正面临泡沫破裂的风险。在这样的背景下，星爵决定创办一家专注于AI时代数据库产品的公司。他提出，算力、算法和数据是AI时代的三大核心要素，而数据则是最有价值、最核心的资源。

Zilliz的首款产品Milvus，是全球首个向量数据库。它通过将非结构化数据转化为向量形式，并利用向量检索技术，实现了对海量数据的快速分析和处理。2019年，Zilliz将Milvus在GitHub上开源，用户只需简单的配置和代码，就能实现以图搜图等功能，响应时间极短。

随着ChatGPT的横空出世和大模型的普及，向量数据库的重要性日益凸显。特别是在解决大模型幻觉问题上，检索增强生成（RAG）框架成为了业内公认的解决方案。RAG通过将特定领域知识和实时更新信息向量化并存储，以“外挂”形式补足了大模型的知识短板。而向量数据库，作为RAG检索系统的核心，成为了大模型落地过程中的基础应用工具。

OpenAI等巨头也纷纷加入向量数据库的行列。2023年3月，OpenAI宣布通过插件集成向量数据库，以实现大模型的长期记忆功能。这一举动瞬间点燃了向量数据库市场的热情，数十亿资金涌入这一赛道，Zilliz的Milvus在GitHub上的Star数也迅速增长。

然而，向量数据库的价值远不止于此。随着Scaling Law效率的放缓，越来越多的人开始意识到大模型的有损压缩本质。在压缩过程中，细节、知识体系和长尾知识往往会被忽略或简化。而向量数据库则能够对这些细节进行更高程度的还原和存储，从而弥补大模型的缺陷。今年爆火的ColPali RAG、iRAG、VisRAG等，都是向量数据库在大模型领域应用的典范。

在企业AI部署落地中，RAG的占比也在逐年上升。根据Menlo Ventures对600家美国企业的调研显示，2024年企业AI部署中RAG的占比已高达51%。向量数据库与RAG几乎成为了大模型落地的默认最强外挂。

然而，在数据库领域，企业一旦选择了合适的产品，往往会因为数据迁移成本高、与现有系统集成紧密等因素，在很长一段时间内不会进行更换。因此，如何选择合适的向量数据库，成为了困扰无数大模型应用开发者的难题。

全球知名独立研究机构Forrester发布的《2024年第三季度向量数据库供应商Wave报告》，为这一市场提供了清晰的江湖座次。在这份报告中，Zilliz等创业公司凭借创新能力和市场份额，成功跻身领导者象限。报告指出，企业在选择向量数据库时，应重点关注支持广泛的核心向量功能、简化向量的数据管理和以高效形式实现性能与规模的交付等方面。

以Zilliz为例，其在向量维度、向量索引、性能和可扩展性等方面表现出色。通过支持磁盘索引和Partition/Namespace/逻辑分组等功能，Milvus能够轻松扩展并合理分配资源。同时，它支持的索引类型多达11种，能够适应不同数据特点并提升查询准确性。

Zilliz的成功，不仅得益于历史进程的助推，更离不开其技术远见和长期主义的坚持。从2019年推出产品化开源向量数据库开始，Zilliz就致力于构建生态护城河。如今，它已成为大模型时代的新型基础设施，为全球数万家企业提供服务，广泛应用于各个领域。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

高德地图红绿灯AI领航：从读秒到智能引导，驾车出行新体验！

01-12

谷歌加速AI布局，AI Studio团队并入DeepMind力促项目提效

01-11

京东健康发布“AI京医”大模型，分诊准确率高达99.5%引领医疗智能化

01-11

微软DirectX新动向：协作向量助力神经渲染技术跨平台发展

01-11

京东健康首推“AI京医”体系，数字医生24小时在线辅助诊疗

01-11

ChatGPT被用于开发自动射击炮塔，OpenAI紧急叫停并封号

01-11

抖音重拳出击！西藏地震后已清理2万余条AI虚假灾害视频

01-11

谷歌、OpenAI等巨头抢购创作者未公开视频，高价训练AI模型？

01-11

Meta陷版权风波，扎克伯格被曝批AI团队用盗版数据训练模型？

01-11

好大夫在线官宣：正式迈入蚂蚁集团新时代！

三言科技1月11日消息，今日，在“2025好大夫峰会”上，好大夫在线创始人王航宣布好大夫正式加入蚂蚁集团。 “我要正式向大家报告一个消息，好大夫在线已经迎来全新的发展期，正式加入蚂蚁集团，这是一场双向奔赴，我…

01-11

蚂蚁集团与好大夫在线携手，医疗服务AI化新篇章开启！

01-11

扎克伯格炮轰苹果：靠旧发明吃老本，创新乏力？

01-11

微软rStar-Math技术助力，小语言模型数学推理能力大飞跃！

01-11

抖音重拳出击！AI生成灾害场景，23652条不实信息被严处

01-11

周鸿祎：放弃大模型执念，专注应用之路同样伟大

01-11

点击查看更多 +

全站最新

手机截图小技巧：多种方法任你选，隐私安全需注意！

手机卡顿不用愁，这些妙招让你手机流畅如新！

轻松掌握！手机电量显示设置全攻略

比亚迪e7纯电新车上演实力秀，简约设计与强劲动力能否征服市场？

手机电量一目了然，设置教程来啦！轻松掌握电量情况

手机卡顿不用愁，这些妙招让你手机重获新生！

热门内容

本栏最新

高德地图红绿灯AI领航：从读秒到智能引导，驾车出行新体验！

京东健康发布“AI京医”大模型，分诊准确率高达99.5%引领医疗智能化

ChatGPT被用于开发自动射击炮塔，OpenAI紧急叫停并封号

抖音重拳出击！西藏地震后已清理2万余条AI虚假灾害视频

蚂蚁集团与好大夫在线携手，医疗服务AI化新篇章开启！

微软rStar-Math技术助力，小语言模型数学推理能力大飞跃！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.