百度近期在人工智能领域再度取得突破,于1月23日正式揭晓了其最新研发成果——EICopilot。这一创新解决方案利用大型语言模型(LLM)技术,极大地简化了从复杂数据库中提取信息的流程,为企业知识图谱的探索和应用提供了强有力的支持。
在当前的企业环境中,知识图谱因其能够整合法人、注册资本、股东信息等多维度数据而备受青睐。然而,尽管知识图谱的应用价值显著,但传统的文本查询和手动探索方式却限制了其信息提取的效率。为了解决这一难题,百度研究院精心打造了EICopilot。
EICopilot作为一个基于AI智能体的解决方案,专注于优化存储在知识图谱数据库中的企业数据的搜索、探索和摘要过程。它能够高效地处理包含数亿节点、数百亿边、数千亿属性以及数百万子图的庞大数据集,这些数据集涵盖了国家注册的企业、组织、公司等各类信息。
为了提升搜索精度,百度研究人员收集了真实的企业相关查询,构建了种子数据集,并使用Gremlin语言编写了搜索脚本。通过系统的标注和增强,这些数据被转化为向量数据库,从而实现了搜索空间的实时生成,极大地提高了图谱检索和探索的效率。
EICopilot不仅是一个基于LLM的聊天机器人,还具备创新的数据预处理流程,能够优化数据库查询。它还拥有强大的推理能力,采用思维链(CoT)和上下文学习(ICL)等先进技术,为用户提供更加精准和有价值的查询响应。
为了验证EICopilot的性能,研究人员利用百度内部数据平台的数据,构建了一个包含查询和图数据库查询对的数据集。根据查询的遍历长度,他们将查询分为简单、中等和复杂三类,并采用语法错误率(SyntaxErrorRate)和执行正确率(Execution Correctness)作为评估指标。实证结果表明,EICopilot在速度和准确性方面均优于基线方法,Full Mask版本的EICopilot语法错误率低至10.00%,执行正确率高达82.14%。
这一突破性成果不仅展示了百度在人工智能领域的深厚积累,也为企业知识图谱的探索和应用开辟了新的道路。EICopilot的推出,无疑将为企业用户提供更加便捷、高效的信息提取和数据分析服务。