【ITBEAR科技资讯】4月13日消息,马斯克旗下的人工智能公司xAI继3月下旬推出Grok-1.5大语言模型后,于近日再度发布其首个多模态模型Grok-1.5 Vision(简称Grok-1.5V)。
xAI计划近期邀请早期测试者及现有的Grok用户参与Grok-1.5V的测试。新模型不仅增强了文本理解能力,更进一步扩展至处理各类文档、图表、截图及照片内容,展现出全方位的解析实力。
据ITBEAR科技资讯了解,Grok-1.5V的推出标志着xAI在多模态模型领域的重要突破。xAI自豪地宣称,Grok-1.5V在多学科推理、文档解析、科学图表解读、表格数据处理以及屏幕截图和照片分析等多个方面,均能与当前领先的多模态模型相媲美。
为了直观展示Grok-1.5V的能力,xAI在官方发布的新闻稿中详细演示了7个具体应用场景,其中包括将手绘白板上的流程图直接转化为Python代码、根据孩童的绘画作品生成富有想象力的睡前故事、解释网络流行语的含义,以及将图片中的表格数据快速转换为CSV文件格式等实用功能。
此外,xAI还分享了Grok-1.5V的性能测试结果。在RealWorldQA基准测试中,新模型的表现超越了GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5等一系列业界知名竞争对手,展现了卓越的性能和准确性。