自OpenAI在今年2月16日首次发布Sora以来,这款视频生成模型一直备受争议,被部分业内人士戏称为“技术期货”。然而,在长达近十个月的等待后,Sora终于在12月10日以正式版的姿态亮相,宣称能够生成最高达1080p分辨率、时长最长20秒的视频。OpenAI的首席执行官更是将其誉为视频生成领域的GPT-1时刻,标志着该领域的一个重要突破。
然而,与GPT发布时国内科技企业纷纷跟进的情况不同,Sora的发布并未在国内AI领域掀起同样的波澜。国内企业对视频生成技术的态度显得更为复杂和多样化。一部分企业选择积极跟进,如阿里巴巴、字节跳动、快手和腾讯等互联网巨头,以及智谱AI、MiniMax、爱诗科技等AI初创企业,都相继发布了各自的视频生成模型,并声称在某些方面达到了甚至超越了Sora预览版的表现。
然而,并非所有企业都选择了跟进。百度作为国内互联网巨头之一,其创始人李彦宏明确表示,无论Sora多么火爆,百度都不会涉足该领域。同样,百川智能等AI企业也表达了类似的态度,尽管他们都有自己的文生视频模型,但并未将其作为重点发展方向。这种分化现象表明,国内企业在视频生成领域的战略选择上出现了明显的差异。
那么,为何国内企业在面对Sora时表现出了如此不同的态度呢?这主要源于对视频生成技术本身的认知差异。Sora的核心技术路线是Diffusion+Transformer的结合,通过文本、图片和视频作为提示词进行视频生成。然而,对于这一技术路线的可行性和前景,业内存在不少争议。一些专家认为,Sora仍停留在二维图像层面,无法真正模拟三维世界,因此无法实现通用人工智能(AGI)。Sora在生成视频时仍存在手部细节不准确、动态过程中一致性差等问题。
除了技术层面的争议外,商业前景的不明朗也是国内企业选择谨慎跟进的重要原因。Sora的“暴力美学”路线——即通过大规模算力、数据和参数量的堆砌来尝试让大模型涌现出理解物理世界的能力——成本高昂且资源投入巨大。对于大多数国内基础模型厂商而言,视频生成领域仍然是一个相对边缘、投资回报比不高的业务。尤其是在当前影视行业调整周期和AI影视制作业务增长有限的情况下,企业更倾向于将资源投入到其他更具潜力的领域。
市场竞争的激烈程度也影响了国内企业在视频生成领域的决策。当前,大模型的市场竞争情况与GPT时期已经大不相同。各家企业在基础训练设施、核心架构设计与技术储备等方面都有了显著积累,复现Sora并上线类似应用的技术壁垒已经降低。这意味着即使企业先发布了视频生成模型,也未必能长期保持竞争优势和市场垄断地位。
尽管存在诸多争议和挑战,但不可否认的是,视频生成技术仍然具有巨大的潜力和价值。对于国内企业而言,如何在技术路线、商业前景和市场竞争中找到平衡点,将决定他们在这一领域的成败。在这个过程中,企业需要根据自身的实际情况和战略定位来做出明智的选择。