ITBear旗下自媒体矩阵:

悦数科技:Graph RAG先行者,如何领跑向量数据库新赛道?

   时间:2025-02-14 18:26:14 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

向量数据库领域近年来风起云涌,成为技术界关注的焦点。高效检索高维向量数据对于大型模型的训练和推理至关重要,特别是在2023年大模型技术迅猛发展后,向量检索作为检索增强生成(RAG)技术的关键组成部分,更是被推到了数据库技术的风口浪尖。

然而,随着RAG技术的广泛应用,其局限性也日益凸显。RAG技术主要依赖于向量化知识本身,难以捕捉独立信息之间的链接,无法结合关系和语境进行深度语义理解和上下文细微差别的处理。这种局限性在处理复杂查询时显得尤为明显。

面对这一挑战,杭州悦数科技有限公司(以下简称悦数)CTO叶小萌带领团队,在2023年与LlamaIndex联合提出了Graph RAG的概念,并迅速分享了这一概念的初步验证结果。Graph RAG通过结合知识图谱和图数据库的优势,能够更精确、全面地检索相关信息,使模型能够关联上下文给出更准确的答复。

悦数CTO叶小萌表示,技术的差异化策略是悦数的核心竞争力。大模型的兴起让RAG技术成为热点,但要让通过公域数据训练的大模型理解私域数据,就需要先将私域数据保存下来,并通过向量化进行比较以快速找到关联内容。然而,向量数据库的局限性促使悦数团队开始探索图数据库与向量的结合。

在悦数团队首次提出Graph RAG概念时,人们对这一结合还感到陌生。但悦数并未退缩,迅速组建团队开始打造RAG产品。经过一年的努力,悦数RAG产品已经面世,并进入产品市场匹配阶段(PMF),预计今年将进行大规模推广。

悦数团队中的古思为是Graph RAG项目的核心成员之一。在他看来,市面上的RAG结合方式都存在局限性,而Graph RAG则具有足够的复杂性和想象力。他回顾说,Graph RAG就像一个小帐篷,能够容纳多种技术和方法,但同时也带来了选择上的挑战。最终,悦数团队通过反复斟酌和取舍,简化了实现方式,并取得了不错的反响。

在概念落地过程中,悦数团队遇到了不少挑战。为了让用户即使对图库无感知也能获得良好的使用效果,团队与数十个客户进行了深入沟通,并迭代出了开箱即用的解决方案。如今,悦数RAG已经能够无缝衔接DeepSeek,并正在进行基于蒸馏技术、图上推理等功能的迭代。

悦数不仅在RAG领域走在前沿,还在图数据库国际标准制定方面取得了重要进展。2024年4月,国际标准化组织(ISO)发布了国际标准图查询语言GQL,而悦数一直跟踪并投入研发这一标准。在GQL标准发布后的同年11月,悦数推出了全球首款原生支持GQL的分布式图数据库产品——悦数图数据库v5.0。

悦数图数据库的增长势头强劲。在2023年实现了两倍多的增长,2024年又比2023年增长近三倍,已接近收支平衡。叶小萌表示,悦数并不是为了做信创而做信创,而是自然而然地走向了信创之路。悦数图数据库的每一行代码都是团队亲手写下,具有自主可控的特点,是做信创的良好土壤。

然而,进入信创名录并非易事。悦数正在积极适配各种信创操作系统和硬件,以期在信创市场占据一席之地。同时,悦数图数据库还通过了中国信通院举办的“可信数据库”图数据库性能测试,成为国内首个全项完成该测试的图数据库产品。

悦数的客户中有一半以上都有信创需求。叶小萌观察到,现在还愿意出高价的企业往往是国央企或具有国资背景的企业。在政企领域的客户竞争中,金融业尤为激烈。为了避免卷入价格战,悦数在投标时会避开价格分数占比过高的场景,并尽量避免抢低价客户。叶小萌认为,产品价格应该体现产品本身给客户带来的价值,卷技术对行业有利,但卷价格则无法体现软件产品的价值。

亲历图数据库市场成长的浪潮,叶小萌感受到市场教育的成效显著。现在团队接触客户时,不再需要介绍图数据库的定义和功能,而是直接从介绍行业经验和使用场景开始。他形容数据库市场的竞争有如长跑,现在已经进入后半程,第一梯队和第二梯队已经逐渐显现。

叶小萌作为技术狂人,深受硅谷科技大公司工程师文化的影响,希望打造技术上最强的公司。悦数的氛围十分接近他心之所向的工程师文化,员工专注做技术、以技术为导向,具有很强的自驱力。然而,对叶小萌来说,创业最难的是突破边界。在商业化开始后,他需要面对客户,观察对方的反应、猜测背后的想法,这对他来说是一个新的挑战。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version