北京智谱华章科技有限公司近日宣布了一项重要进展,其自主研发的智谱GLM-PC现已面向公众开放体验。这一创新技术被公司称为“自主操作电脑的多模态Agent再度升级”,旨在为用户带来前所未有的电脑使用体验。
GLM-PC基于智谱华章的多模态大模型CogAgent,是全球首个允许公众直接通过回车使用的电脑智能体。它不仅能够像人类一样“观察”和“操作”电脑,还能协助用户高效完成各类复杂的电脑任务。自2024年11月29日首次发布并开放内测以来,GLM-PC不断迭代升级,如今推出了“深度思考”模式,并增强了逻辑推理和代码生成功能,同时实现了对Windows系统的全面支持。
GLM-PC的强大功能体现在多个方面。在代码生成与逻辑执行上,它能够综合分析任务目标和可用资源,生成清晰的执行路线图,并将大型任务自动拆解为可管理的子任务。随后,通过启动代码生成模块,GLM-PC能够执行逻辑循环,逐步推进任务完成,整个过程无需人工干预,实现了从输入到输出的完整闭环。
更GLM-PC具备长思考能力。它能够在执行任务过程中实时调整策略,反思修正和自我纠错,不断优化解决方案。例如,当流程因外部因素中断时,GLM-PC能够重构逻辑路径;遇到信息缺失时,它会主动与用户交互,通过提问来完善任务执行方案,确保任务能够顺利完成。
在图像与GUI认知方面,GLM-PC同样表现出色。它能够准确识别图形界面元素,如按钮、图标、布局等,并理解这些元素的功能与交互逻辑。结合对用户界面的学习和历史操作信息的理解,GLM-PC能够为用户提供当前界面的智能推荐操作,提升用户的使用效率。
GLM-PC还具备图像语义解析能力。它能够对复杂图像进行深入语义分析,提取关键信息,如文字、标识符以及数据可视化图表中的趋势和指标。这一功能使得GLM-PC能够更好地理解用户意图,为用户提供更加精准的服务。
在多模态信息融合方面,GLM-PC同样展现出了强大的实力。它能够融合图像与文字信息,形成全面感知结果。例如,在用户界面中,GLM-PC能够同时识别按钮位置与文字标签,为用户制定精准的操作计划,助力用户高效完成电脑任务。