字节与浙大联合推多模态大语言模型Vista-LLaMA 可解读视频内容

时间：2024-01-10 16:52:41 来源：互联网编辑：快讯团队 发表评论无障碍通道

Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。

近年来，大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展，基于深度学习技术能够理解和生成复杂的文本内容。然而，将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息，还涉及时间序列的动态变化，这使得大语言模型从视频中提取信息变得更为复杂。

面对这一挑战，字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaMA 专门针对视频内容的复杂性设计，能够有效地将视频帧转换为准确的语言描述，从而极大地提高了视频内容分析和生成的质量。

论文主页：https://jinxxian.github.io/Vista-LLaMA/

图 1

技术创新路径

现有多模态视觉与语言模型在处理视频内容时，通常将视频帧转化为一系列的视觉 token，并与语言 token 结合以生成文本。然而，随着生成文本长度的增加，视频内容的影响往往逐渐减弱，导致生成的文本越来越多地偏离原视频内容，产生所谓的 “幻觉” 现象。

Vista-LLaMA 通过创新的方式处理视频和文本间的复杂互动，突破了传统视频语言模型的限制。Vista-LLaMA 的核心创新在于其独特的视觉与语言 token 处理方式。不同于其他模型，它通过维持视觉和语言 token 间的均等距离，有效避免了文本生成中的偏差，尤其是在长文本中更为显著。这种方法大幅提高了模型对视频内容的理解深度和准确性。

图 2

Vista-LLaMA 采用了一种改良的注意力机制 —— 视觉等距离 token 注意力(EDVT)，它在处理视觉与文本 token 时去除了传统的相对位置编码，同时保留了文本与文本之间的相对位置编码。EDVT 机制通过特定的函数处理隐藏层输入，有效区分视觉 token 来源。

具体而言，它首先对输入进行查询、键和值的映射转换，接着对查询和键输入应用旋转位置编码(RoPE)，分别计算带 RoPE 和不带 RoPE 的注意力权重。随后，根据视觉 token 的存在与否合并这两种注意力权重，通过 softmax 函数实现注意力的归一化，并最终通过基于注意力权重的线性映射更新表示，生成输出结果。这种创新使得多模态大语言模型能够更加关注视频的内容，尤其在复杂的视频场景中，能够有效地捕捉关键视觉元素，提升了文本生成的质量和相关性。

图 3

同时，该模型引入的序列化视觉投影器为视频中的时间序列分析提供了新的视角，它不仅能够处理当前视频帧，还能利用前一帧的信息，从而增强视频内容的连贯性和时序逻辑。

视觉投影器的作用是将视频特征映射到语言嵌入空间，以便大型语言模型融合和处理视觉与文本输入。如图 4 所示，早期的视觉投影器通常使用线性层或查询转换器(Q-Former)直接将帧特征转换为语言 token。然而，这些方法忽略了时间关系，限制了语言模型对视频的全面理解。Vista-LLaMA 中引入了序列化视觉投影器，它通过线性投影层编码视觉 token 的时间上下文，增强了模型对视频动态变化的理解能力，这对于提升视频内容分析的质量至关重要。

图 4

基准测试结果

Vista-LLaMA 在多个开放式视频问答基准测试中展现了卓越性能。它在 NExT-QA 和 MSRVTT-QA 测试中取得了突破性成绩，这两个测试是衡量视频理解和语言生成能力的关键标准。在零样本 NExT-QA 测试中，Vista-LLaMA 实现了 60.7% 的准确率。而在 MSRVTT-QA 测试中达到了 60.5% 的准确率，超过了目前所有的 SOTA 方法。这些成绩在行业中属于先进水平，显著超越了其他 SOTA 模型，如 Video-ChatGPT 和 MovieChat。

图 5

这些测试结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性，Vista-LLaMA 能够准确理解和描述视频内容，显示了其强大的泛化能力。这些成绩不仅展示了 Vista-LLaMA 在理解复杂视频内容方面的能力，还证明了其在多模态语言处理领域的领先地位。

数据集：CineClipQA

图 6

与 Vista-LLaMA 一同提出的还有 CineClipQA 新数据集。

CineClipQA 包含了 153 个精选视频片段，这些片段来自五部风格和叙事手法各异的电影。每个片段代表电影情节的一个或多个独特部分，并附有 16 个量身定制的问题，共计 2448 个问题。问题分为系统提示和问题两部分：

● 系统提示提供了当前视频片段中关键角色的基本信息，并在必要时为角色的初始行动提供提示。

● 问题主要分为五类：识别、时间性(预测)、空间性(互动)、意图和感知。具体来说，识别包括地点和行动的问题;时间性涉及下一个行动、之前的行动、同时发生的行动和预测行动的问题;空间性涉及物体与人之间的空间信息问题;意图涉及行动目的地三种相似问题;感知检查情感识别和询问 “如何”(方式、态度等)。

该研究还提供了所有 16 种类型的详细解释和相应案例。在 CineClipQA 数据集中，Vista-LLaMA 也表现出了卓越的性能。

图 7

简言之，Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架，推动人工智能在视频处理和内容创作方面的发展，预示着未来多模态交互和自动化内容生成领域的广泛机遇。

更多详情，请访问项目页面 [https://jinxxian.github.io/Vista-LLaMA]。

关于字节跳动智能创作团队

智能创作团队是字节跳动音视频创新技术和业务中台，覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域，借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围，实现了前沿算法 - 工程系统 - 产品全链路的闭环，旨在以多种形式向公司内部各业务线以及外部合作客户提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。(作者：彭傲晴)

12月18日，以“携光共进与智同行”为主题的2024第二届智能车载光峰会在风景秀丽的东莞松山湖悦榕庄成功举办。本次峰会由中国智能网联汽车产业创新联盟、中国汽车工业协会车用智能显示分会联合主办，华为技术有限公司承办。峰会汇聚了来自车企、标准研究、产品测评、合

在当今手机摄影日益普及的时代，一款高性能、便携的存储设备成为了众多摄影爱好者的必备之选。雷克沙推出的Professional Go PSSD，正是为了满足这一需求而设计的。这款固态硬盘不仅体积小巧，性能卓越，还具备多重安全保障，成为专业摄影用户的得力助手。雷克沙Professi

在科技日新月异的今天，每一次技术的革新都足以掀起行业的波澜，尤其是有行业领导者推出的新技术更是如此。比如在前几天的TCL QD-Mini LED新技术发布会上，凭借一系列颠覆性的创新成果，引发了行业内外的热议。在本次发布会上重磅推出的万象分区、绚彩XDR以及量子点Pro

在科技日新月异的今天，电视显示技术正经历着前所未有的大变革。Mini LED技术的快速发展不仅为电视市场注入了新的活力，更推动了画质表现的不断突破。然而，面对激烈的市场竞争，单纯依赖参数提升已难以满足消费者对于画质的极致追求。近日，TCL QD-Mini LED新技术发布

在季节更迭的轮回中，冬季已悄然降临。然而，随着气温的逐渐下降，空气也日益干燥，给人们的肌肤带来了严峻的挑战。在这样的季节里，许多人开始感受到肌肤的微妙变化，变得干燥、紧绷，甚至出现脱皮的现象。为了应对这一季节性肌肤挑战，自然阳光焕肤水润时光面膜，正是

鸿蒙风起,未来已来——云学堂鸿蒙应用入门级开发者认证开营啦!在科技飞速发展的今天,鸿蒙系统以其开放、创新、安全的特点,正逐步构建起一个全新的智能生态。从智能手机到智能家居,从穿戴设备到出行工具,鸿蒙系统的身影无处不在,它不仅为用户带来了更加流畅、智能的使用

12月18日，2024京东金榜迎来五周年盛典，备受瞩目的“百大金奖”商品榜单也正式揭晓。过去的一年里，近9亿人次通过金榜完成下单，80%的用户在不到10秒内就能找到心仪商品；超过5200个品牌金榜留名，其中超1700个品牌在上榜当月实现销售同比增长超100%。数码品类中，从智

近日，由工信部指导的2024“绽放杯”5G应用大赛全国总决赛结果在2024中国5G发展大会期间正式揭晓——中国广电、亚信科技共同建设的全球首个全量核心网下沉本地的5G风电专网项目，从众多案例中脱颖而出斩获全国一等奖!该案例是全国一等奖中唯一的风电行业案例，此前已获

这一年我们看到的中小企业关键词是拼搏与时代共舞，书写奋斗历程是同行抱团取暖，点燃希望的火种是争先与爱采购携手，成就数智转型幸会，这一年与你们同路感恩，这一路有你们相随2024爱采购「岁末家年华」温情来袭联动全国近50个城市致敬时代同行者，期待与你共绘新章!

12月14日，2024一带一路暨金砖国家技能发展与技术创新大赛之元宇宙3D数字内容设计创作赛项(中职组)全国总决赛在湖北崇阳职业技术学校圆满闭幕。大赛于12月12日开幕，围绕文博文创、轨道交通、智能制造三个主题开展，通过比赛，参赛选手可以更深刻理解3D数字化技术在社会

在这个快节奏的时代，看电影却是一个必须慢下来的过程。相信在外奔波一天，每一位电影爱好者回家观影时，内心渴求的绝不仅仅是一台简单的投影设备，而是一份由电影原色带来的真实感动。可当今家庭影院消费市场鱼龙混杂，让人眼花缭乱，什么样的设备才能真正称得上「专业

不觉已到深冬,西伯利亚的寒风早已吹遍北方,不知已下过几场大雪。千里冰封,万物冬藏,但对另一群生命来说,却无处可藏。所以和季风一同在西伯利亚起飞的,还有候鸟。和人一样,鸟儿也在冬天向往温暖宜居的南方,为了生存每年如约开启一场浩荡迁徙。各类候鸟聚群而飞,相互支撑

相信大家最近都听说了电视圈即将迎来的年末压轴大戏吧?没错，说的就是将在12月16日举行的“光生万象”2024 TCL QD-Mini LED新技术发布会!为此官方这几天连发3张倒计时海报，引来网友的纷纷猜想，作为头部电视品牌，TCL会给消费者带来怎样的突破性技术呢?在发布正式开始

转眼又到了年底，科技圈的热闹程度堪比春节!不久前就有关TCL新技术突破的消息曝光，这几天TCL也陆续官宣新技术即将发布信息，据悉，2024年TCL QD-Mini LED新技术发布会将于12月16日14:30举行!这场被誉为“光生万象”的QD-Mini LED技术发布会，无疑将成为年底科技圈的一

我们真的太激动了，打《无畏契约》有两年的时间，真没想到有一天会拿到10万元的奖金。这对于我们战队的每个人都是莫大的鼓励，有一种热爱成为专业的不真实感。感谢掠夺者电竞大赛这个舞台，感谢宏碁品牌举办这么好的赛事活动，也感谢英特尔酷睿的加持。12月14日，掠夺

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.