在人工智能(AI)的快速发展浪潮中,数据标注行业作为AI产业链的关键一环,正经历着前所未有的变革。特别是随着大型语言模型的兴起,数据标注行业迎来了爆发式增长,但其劳动密集型的特性也使其面临市场的重新评估。
以美股市场知名数据标注公司Innodata为例,其股价在过去一年中飙升了432%,成为市场关注的焦点。最新财报显示,Innodata在2024年的营收同比增长了96.44%,且其八大主要客户中,有五家来自美股科技巨头。这一强劲表现无疑彰显了数据标注行业在当前AI时代的重要地位。
然而,市场的预期并非一成不变。随着DeepSeek等技术的发布,市场对用于训练大模型的公开数据需求产生了新的质疑。这直接导致了Innodata股价的波动,尤其是在三月,股价跌幅超过了30%。对于Innodata的未来,市场声音出现了明显的分歧。
一方面,看空者指出,在过去十年中,Innodata仅实现了两次盈利,因此其股价的飙升似乎缺乏合理的支撑。而另一方面,看多者则认为,随着大模型时代的来临,Innodata已经成功转型,专注于大模型的数据清理业务,因此其增长潜力巨大。
回顾数据标注行业的发展历程,自动驾驶的兴起曾为其带来了第一次高光时刻。在大型语言模型出现之前,自动驾驶领域的标注需求占据了AI下游应用的相当大比例。然而,大型语言模型的出现将数据标注的需求提升到了一个全新的高度。有投资者表示,如果没有大型语言模型的兴起,即便是自动驾驶领域的数据标注龙头Scale AI,在2023年之前的年收入也仅为1亿至2亿美元。而到了2024年,Scale AI的全年ARR预计将达到12-14亿美元,实现了数倍的增长。
Innodata作为业务集中在数据工程领域的公司,充分享受到了大型语言模型带来的红利。最新财报显示,其最大客户授予了价值约2400万美元的额外合同,使得来自该客户的总年化运营收入达到了约1.35亿美元。来自其他七家大型科技公司客户的收入也在第四季度实现了环比159%的增长。
然而,随着大型语言模型行业的扩张期逐渐过去,数据标注行业也开始面临新的挑战。Epoch AI的研究估计,自2020年以来,用于训练大语言模型的数据增长了100倍,且AI训练数据集的规模每年都在翻倍。然而,互联网可用内容的年增长率却不足10%。这意味着,到2028年,AI训练数据很可能面临耗尽的风险。
事实上,数据不足所导致的发展瓶颈已经成为行业中的普遍现象。去年11月,有报道称OpenAI下一代旗舰模型Orion的改进速度大幅放缓,其中一个主要原因就是高质量训练数据的短缺。行业共识是,目前通用数据的供给已经接近饱和,垂类数据将成为未来AI模型差异化的关键。
尽管Innodata在数据标注领域取得了显著成绩,但其“AI含量”却一直饱受质疑。早在2019年,Innodata就宣称自己开始实施人工智能和机器学习流程,并将其划为一家人工智能公司。然而,去年的一份报告却指出,Innodata的核心业务仍然是依靠海外廉价劳动力进行基础数据标注,而非自主研发的AI技术。报告还引用前员工的说法,称公司为硅谷客户提供的服务本质上是“键盘劳动”。
尽管如此,Innodata的财报数据却显示出了强劲的增长势头。仅在2024年第二季度,公司就花费了360万美元的招聘代理费,这表明其仍然非常依赖人力。业内人士指出,这主要是由于数据标注的复杂性和多样性,以及不同领域的数据标注要求不同。自动化标注技术在现阶段还存在一定的局限性。
然而,DeepSeek等技术的出现却在一定程度上改写了数据需求的逻辑。DeepSeek采用的强化学习技术使得大模型能够利用模型内已存在的数据进行自我训练,从而降低了对数据量的需求。这一变化无疑对数据标注行业产生了冲击。
关于DeepSeek对数据标注行业的冲击,Innodata管理层在财报电话会上表示,他们相信预训练数据和微调数据对于通用人工智能(AGI)的发展而言是无法替代的。在他们看来,DeepSeek依赖以现有模型数据训练新模型的方式会极大地压缩数据,最终导致模型崩溃。
尽管市场存在质疑,但仍有投资者认为DeepSeek的出现对Innodata来说并非利空。他们指出,随着DeepSeek带来的模型部署和运行成本的大幅降低,将有更多应用层的公司部署自己的大模型,这将带来额外的数据标注需求。
然而,对于数据标注工作的自动化程度问题,市场仍然存在争议。当投资者质疑Innodata的“AI含量”低时,一个不可忽视的事实是,数据标注工作的AI化可能会首先革掉数据标注公司自己的命。这一悖论使得Innodata等公司的可持续增长面临不确定性。
尽管如此,随着AI技术的不断发展,数据标注行业仍然具有广阔的发展前景。特别是在垂类数据领域,人工标注仍然具有不可替代性。因此,对于Innodata等公司而言,如何在保持业务增长的同时,不断提升自身的技术含量和自动化水平,将是其未来面临的重要挑战。