近期,月之暗面团队宣布了一项技术突破,正式推出了名为k1的视觉思考模型。这款模型建立在强化学习的基础上,不仅强化了端到端的图像理解能力,还首次将思维链技术引入,并扩展至数学以外的多个基础科学领域。
据月之暗面官方透露,k1模型在基础科学学科的基准测试中表现优异,超越了包括OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet在内的多款知名模型。这一成果不仅彰显了k1模型的强大实力,也预示着AI技术在科学领域应用的新篇章。
值得注意的是,k1视觉思考模型一经发布便迅速上线,用户可以在最新版“Kimi智能助手”的Android、iPhone手机App以及网页版kimi.com上体验到这一创新功能。用户只需在App或网页版中找到“Kimi视觉思考版”,即可通过拍照或上传图片的方式,享受模型带来的智能化解题体验。
k1模型不仅提供了准确的答案,更通过完整的推理思维链CoT,让用户能够清晰地看到模型思考答案的全过程。这一特性不仅提升了用户体验,也进一步增强了模型的透明度和可信度。
从模型训练的角度来看,k1视觉思考模型的打造过程经历了两个阶段。首先,通过预训练获得基础模型,该模型在字符识别能力上进行了重点优化,取得了OCRBench上903分的优异成绩。随后,在基础模型的基础上进行强化学习后训练,进一步提升了模型的性能。在多个基准测试集上,k1模型均表现出色,如MathVista-testmini、MMMU-val和DocVQA上的分数分别为69.1、66.7和96.9。
月之暗面团队还自主构建了一个标准化的测试集Science Vista,以解决市场上缺乏针对基础科学学科的图形测试集的问题。该测试集涵盖了不同难度的数理化图片题目,与实际用户需求高度匹配。月之暗面表示,将开放该测试集给全行业使用,以促进AI技术在科学领域的发展。
尽管k1视觉思考模型取得了显著的成果,但在内部测试中,月之暗面团队也发现了模型存在的一些局限性。例如,在分布外泛化、复杂问题成功率、噪声场景准确率以及多轮问答效果等方面,k1模型仍有很大的提升空间。与OpenAI的o1系列模型相比,k1在某些场景和泛化能力上仍存在一定的差距。然而,月之暗面团队表示,将继续努力优化模型,以期在未来取得更好的成绩。