【ITBEAR】8月31日消息,阿里通义千问近日发布了其第二代视觉语言模型Qwen2-VL,标志着人工智能领域的一大进步。该模型的旗舰版Qwen2-VL-72B已经正式上线阿里云百炼平台,供广大开发者和企业应用。
据ITBEAR了解,Qwen2-VL在多模态模型领域取得了显著成就,甚至在多个权威测评中超越了GPT-4o和Claude3.5-Sonnet等知名闭源模型。特别是在文档理解方面,Qwen2-VL展现出了明显的优势,显示出强大的多模态理解能力。
该模型的出色表现不仅体现在静态图像的理解上,它还能理解20分钟以上的长视频,并支持基于视频的问答、对话和内容创作等多种应用。这一功能将极大地丰富视觉语言模型在实际场景中的应用范围。
此外,Qwen2-VL还具备视觉智能体能力,可以集成到手机、机器人等设备中,根据视觉环境和文字指令进行自动操作。这一特点使得该模型在未来的智能设备领域具有广阔的应用前景。
值得一提的是,Qwen2-VL还能理解图像视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语和越南语等,这为其在国际化的应用场景中提供了更多可能性。
阿里通义千问团队从多个方面对模型能力进行了全面评估,结果显示Qwen2-VL-72B在大部分指标上都达到了行业最优水平。用户现在即可通过阿里云百炼平台轻松调用Qwen2-VL-72B的API,体验其强大的视觉语言处理能力。