全球知名IT市场研究机构IDC最新发布了关于中国生成式AI应用开发平台的深度报告,该报告聚焦于企业统一AI开发平台的雏形,并对市场中的大模型平台进行了详尽分析。IDC所界定的大模型平台,主要由模型开发平台和应用开发平台两大核心部分组成。前者专注于提供模型训练与调优工具,赋能开发者利用基础模型进行自主创新;后者则致力于简化应用开发流程,通过低代码甚至无代码的开发工具,助力开发人员高效产出。
报告不仅对比了当前市场上主流的大模型平台供应商,还为企业用户在选择大模型平台时提供了至关重要的技术指标。在这次评估中,百度智能云表现尤为突出,以七项满分的优异成绩,在所有大模型平台厂商中独占鳌头,紧随其后的是亚马逊云AWS与阿里云,两者并列第二。
IDC指出,大模型平台为应用程序开发开辟了新的道路。企业在挑选大模型平台时,应着重关注供应商在模型层和数据层的能力。在模型层,如何使模型更好地适应企业的实际应用场景是关键所在;而在数据层,如何有效实施RAG(检索增强生成),确保生成内容的精准无误,消除幻觉现象,则显得尤为重要。百度智能云在这两大领域均具备深厚的技术底蕴。
百度智能云的千帆大模型平台,作为大模型与AI应用开发的综合服务平台,能够从模型开发、模型服务、应用开发三个维度,为企业提供全方位的服务。目前,文心大模型的日均调用量已超过15亿次,千帆平台已成功帮助客户精调了3.3万个模型,并开发出77万个企业应用。
模型精调是推动大模型与产业深度融合的重要一环。尽管大模型具备强大的泛化能力,能够处理多种通识问题,但在特定行业及领域的应用中,其表现往往不尽如人意。这是因为不同行业拥有独特的专业知识、逻辑结构和数据特征,而通识知识难以全面覆盖这些特殊需求。通过模型精调,将行业的专业知识和数据特征融入大模型,可以显著提升其在行业应用中的准确性和可靠性。
当前,行业内主流的大模型服务商纷纷通过大模型平台提供模型精调服务,助力企业快速构建AI应用。AWS SageMaker集成了亚马逊的高性能预训练模型库,这些模型已在大规模通用数据上进行了充分训练,为模型精调奠定了坚实基础。同时,SageMaker还提供了多种先进的机器学习算法,用户可根据精调任务的具体需求,选择合适的算法来进一步优化模型性能。
百度智能云的千帆大模型平台则提供了完整的工具链,是业界首个上线DPO、KTO等模型训练方法的平台,并配备了高质量通用语料数据和即用的模型精调模板。无论是希望自行准备数据并进行精调,还是希望快速上手并复制行业最佳实践,千帆平台都能提供高效支持。目前,在千帆平台上,每天有超过一半的调用量来自精调后的模型。
以医疗行业为例,杭州全诊医学基于千帆平台和文心大模型,打造了AI医疗助理应用,该应用能够在导诊、预诊、诊间、入院、手术、随访等全阶段为医生和患者提供服务。特别是在辅助医生撰写病历方面,全诊医学通过使用20万份精标病历数据对大模型进行了精调,使得AI医疗助理的医学用语更加准确、规范,病历内容质量得到大幅提升。病历生成的准确度提高了45%,医生的接诊量也增加了20%,为患者带来了更多福祉。
RAG技术已成为企业解决大模型幻觉问题的有效手段。随着生成式AI在企业布局和投资中的日益重要,企业希望通过大模型实现降本增效和产品创新。然而,通用大语言模型(LLM)在实际应用中常出现幻觉问题或回答不准确的情况,特别是在面向B端场景时,难以满足企业的实际需求。为解决这一问题,企业通常采用RAG技术,将生成式AI与企业内部数据库、知识库相结合,使生成内容更加准确、合理。向量数据库凭借其在语义理解和高效检索方面的独特优势,成为企业实现RAG的关键组件。
IDC发布的《RAG与向量数据库市场前景预测》报告显示,在生成式AI的开发过程中,41%的高管认为构建RAG架构至关重要;81%的IT领导者认为,基于业务数据的生成式AI模型能够为企业带来显著的竞争优势。这表明,RAG技术在提升通用大模型准确性方面效果显著,且企业对其认可度正不断提高。随着更多企业意识到RAG的重要性,它有望成为推动生成式AI落地的重要力量。
在评估了RAG和向量数据库市场的发展趋势后,IDC还对市场上的主要厂商进行了评估。在这一评估中,百度智能云的向量数据库VectorDB在核心性能、功能全面性、大模型支持、战略与生态合作、工程化落地五个关键领域保持领先,综合排名并列第一。目前,VectorDB已在超过500家客户中成功落地使用,支持多种常用算法和主流LLM、RAG框架,以及百度智能云千帆和开源Embedding模型,为企业提供一站式部署落地服务。