在科技领域的一次重要聚会中,知乎携手DataFun共同呈现了一场聚焦大模型应用工程化实践的深度技术沙龙。此次活动汇聚了来自15个行业、130家企业的专业人士,共同探讨了大模型技术从实验室迈向千万级用户产品的路径。
知乎CTO孙斌在活动现场带来了一个振奋人心的消息:知乎自研的轻量高效大模型推理框架ZhiLight正式开源。这一消息标志着知乎在大模型工程化实践上的又一重要进展。
知乎在2024年持续推进大模型技术的落地应用,先后推出了知乎直答和专业搜索功能。这些功能不仅聚焦于专业人士的生产力场景,更是将AI搜索推向了更具专业性和实用性的深度搜索阶段。在沙龙上,知乎AI算法负责人王界武详细介绍了知乎直答的搭建过程和技术方案选型。
王界武指出,在构建AI问答系统时,知乎直答团队对比了LLM持续pretrain+posttrain与检索增强生成(RAG)两种方案,最终选择了RAG方案。RAG系统通过从知识库检索相关信息作为上下文,再由大语言模型生成回答,显著降低了AI的幻觉问题,提高了答案的准确性和权威度。团队在Query理解、召回、大模型生成等多个环节进行了深入优化。
在专业搜索功能方面,知乎直答团队采用了多种前沿技术,实现了多智能体的协同工作,并支持信息查询、内容分析、数学计算等多种功能。同时,结合大语言模型的强大推理能力,对用户的上下文和提问进行深入分析,从多角度、多层次召回高质量的内容。
王界武还透露,知乎直答团队计划将产品与社区深度融合,满足更多场景下用户找答案的需求,并在准确性、时效性、交互模式等领域实现更多升级。同时,将进一步提升模型的推理能力,使知乎直答具备更强的解决复杂问题能力和使用体验。
在沙龙上,知乎自研的大模型推理框架ZhiLight也正式亮相。知乎机器学习平台负责人王新介绍了ZhiLight的设计目标和优化重点。ZhiLight旨在快速部署与实践LLaMa-like模型,并兼容OpenAI chat/completions接口,便于日常使用及与开源引擎的性能与稳定性对比。
ZhiLight在PCIe卡间通讯优化、内存管理以及并发请求管理等方面进行了深入优化,并集成了FlashAttention、Marlin、TensorRT、exllama等开源项目。通过计算与通讯overlap和低精度通讯等手段,单层Transformer计算时间降低了40%以上。在模型规模达到70B时,ZhiLight在TTFT指标上明显优于主流开源推理引擎。
百川智能大语言模型资深算法专家王宇龙在沙龙上分享了对Agent技术的探索。他认为,基于LLM驱动的智能体相较于传统Agent,能够利用大型语言模型的强大能力,彻底改变智能体的工作方式。这类智能体能够在不同的任务之间切换,并通过理解自然语言来解决问题。
王宇龙还介绍了当前Agent面临的主要问题,并探讨了Agent和LLM的底层细节。他认为,人工智能有可能以新的方式发现并利用计算简化的区域,从而做出近似和“大致正确”的预测。但AI在进行精确、详细的预测时会遇到困难,特别是在面对计算不可约性时。
在交流会上,“提示词布道师”李继刚也分享了关于Prompt的深刻见解。他提出“Prompt=表达”,并阐述了“表达=本意+文意+解意”以及“本意=经验+词汇+知识”的概念。他认为,与大模型实现“共振”是Prompt设计的核心,即用最清晰、简洁的表达指向核心本质。
李继刚还分享了Prompt的实战经验,认为Prompt工程师应具备人文和技术两项基本素质,既要能写编程、具备理性数学的思维,又要会写作、拥有感性表达的思维。
此次大模型技术沙龙不仅为与会者带来了前沿的技术分享和深度交流,也展示了知乎在大模型应用工程化实践上的坚实步伐。知乎将继续加强与科技行业、技术从业者的交流联动,为互联网行业前沿技术研发和应用贡献力量。