图森未来近日在自动驾驶领域之外迈出了重要一步,发布了其图生视频大模型Ruyi,并宣布将Ruyi-Mini-7B版本开源,供用户在huggingface平台上下载使用。这款产品的推出,标志着图森未来正式进军生成式AI应用赛道,特别是动画与视频游戏市场。
据图森未来工程高级副总裁李海泉介绍,Ruyi从今年8月开始研发,到12月初训练进入尾声,并在内部进行了多轮测试后才决定发布。这款模型需要用户输入一张图片,并可选择输出时长、分辨率、运动幅度和镜头移动方向等参数,从而生成一个不超过5秒的视频。李海泉表示,Ruyi特别擅长制作动漫,且动作更为丝滑,达到了每秒24帧的播放效果。
尽管Ruyi在技术上取得了一定的突破,但图森未来也坦诚地指出了模型目前存在的问题,如手部畸形、多人面部细节崩坏以及不可控的转场等。公司表示正在积极改进这些缺点,并计划在日后的更新中进行修复。
对于自动驾驶和视频模型之间的技术关联,业内存在不同的看法。一些自动驾驶从业者认为,从技术复用的角度来看,两者互相搭不上边。一家视频模型公司的CTO也表示,视频模型和自动驾驶在技术上或经验复用上没有太大关系,图森未来之所以能做,可能是基于市面上的开源模型收集了一些数据,门槛并不高。
然而,李海泉对此持不同意见。他认为,虽然自动驾驶领域的算法和规划控制无法直接用于视频模型,但在模型设计、数据处理和基础工具类等方面还是有很多可以复用的东西。他强调,图森未来在设计上确实参考了很多开源方案的实现,但这并不意味着要关起门来搞研发。
图森未来之所以选择进军生成式AI应用赛道,与其对市场的洞察密不可分。根据GIR的调研数据,全球文生视频大模型市场在2023年的收入大约为720万美元,预计到2030年将达到22.19亿美元,年复合增长率有望达到56.6%。尽管视频生成的技术成熟度还有待提高,实现规模性商业化也需要时间,但图森未来认为,最佳应用场景是孵化生成式AI工具的原动力。
图森未来致力于利用大模型降低动漫和游戏内容的开发周期和开发成本。Ruyi大模型已经可以实现输入关键帧后生成后续5秒的内容,或输入两个关键帧由模型生成中间的过渡内容,从而显著降低开发周期。这与图森未来想要入局的动画与视频游戏市场高度相关。
然而,并非所有人都对图森未来的这一转型持乐观态度。有观点认为,图森未来是在赚吆喝,早期那些AI公司在大模型这波浪潮中可能跟不上节奏。图森未来内部也存在一些不稳定因素,如持续的内讧等。近日有投资人士透露,即将召开的图森未来股东大会将决定公司下一阶段的控制权。
尽管如此,李海泉仍表示,图森未来将在12月19日详细阐述AIGC业务、其他业务和自动驾驶业务如何整合等问题。这无疑为图森未来的未来发展增添了一丝神秘色彩。