ITBear旗下自媒体矩阵:

重磅!阿里推出Qwen2-VL-72B视觉模型,长视频理解力破20分钟大关!

   时间:2024-08-31 15:49:42 来源:ITBEAR作者:杨凌霄编辑:瑞雪 发表评论无障碍通道

【ITBEAR】8月31日消息,阿里通义千问近日发布了其第二代视觉语言模型Qwen2-VL,标志着人工智能领域的一大进步。该模型的旗舰版Qwen2-VL-72B已经正式上线阿里云百炼平台,供广大开发者和企业应用。

Qwen2-VL模型示意图

据ITBEAR了解,Qwen2-VL在多模态模型领域取得了显著成就,甚至在多个权威测评中超越了GPT-4o和Claude3.5-Sonnet等知名闭源模型。特别是在文档理解方面,Qwen2-VL展现出了明显的优势,显示出强大的多模态理解能力。

该模型的出色表现不仅体现在静态图像的理解上,它还能理解20分钟以上的长视频,并支持基于视频的问答、对话和内容创作等多种应用。这一功能将极大地丰富视觉语言模型在实际场景中的应用范围。

此外,Qwen2-VL还具备视觉智能体能力,可以集成到手机、机器人等设备中,根据视觉环境和文字指令进行自动操作。这一特点使得该模型在未来的智能设备领域具有广阔的应用前景。

值得一提的是,Qwen2-VL还能理解图像视频中的多语言文本,包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语和越南语等,这为其在国际化的应用场景中提供了更多可能性。

阿里通义千问团队从多个方面对模型能力进行了全面评估,结果显示Qwen2-VL-72B在大部分指标上都达到了行业最优水平。用户现在即可通过阿里云百炼平台轻松调用Qwen2-VL-72B的API,体验其强大的视觉语言处理能力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version