ITBear旗下自媒体矩阵:

AI时代下的职业变迁:985硕士与县城标注员的双面人生

   时间:2025-02-12 19:05:28 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在黄土高原与关中平原的交界地带,宜君县迎来了深秋,一片金黄与灰褐交织的景象中,阿娟开启了她职业生涯的新篇章。在这个人口不过二十余人的小办公室内,她的任务是给电脑屏幕上的店铺门头图片打上标签——曝光过度、店名虚化、门头反光,这些都不符合标准。这些被精心标注的图片,将成为AI学习的教材,帮助它更好地识别商家上传的门头图片。这份工作看似简单,熟练后阿娟能在十几秒内完成一张图片的标注,日均处理量接近两千张。

这份职业有个响亮的名称——“人工智能训练师”,是2020年才正式被纳入国家职业分类目录的新兴职业。然而,在过去几年里,数据标注工作往往与“低门槛”、“欠发达地区”和“劳动密集型”等词汇联系在一起。从业者对自动驾驶、人工智能等概念知之甚少,只是机械地完成点击鼠标的任务。

然而,随着2023年生成式AI,尤其是ChatGPT的爆火,人工智能领域迎来了新的发展阶段,数据标注工作也随之发生了显著变化。这一年,“985硕士”刘到闲决定转行,成为了一名数据标注师,就职于某互联网大厂,月薪超过1.5万元。与阿娟不同,刘到闲的工作不仅仅是坐在工位上标注图片。她需要在九点半上班后,对接产品团队和算法团队的数据训练需求,解答标注团队的疑问,大部分时间都花在沟通与讨论上。

尽管工作内容有所不同,但刘到闲和阿娟都是AI的“人类老师”。随着行业的变化,越来越多像刘到闲这样的高学历年轻人选择成为AI训练师。然而,阿娟等一线标注员却开始担忧,随着数据标注工作要求的提高,她们是否会失去工作机会。

刘到闲的工作目标是培养一个“AI专家”。这如同培养一个孩子,从基础的知识开始,教会AI识别鸟、花、车等常见物体,理解常用话语。到了通用大模型阶段,AI就像是在大学里接受通识教育,掌握全面的知识。但要让AI完成人类的工作,就需要教给它更专业的知识和技能。

培养一位AI专家并不容易。刘到闲需要对接“用人单位”——在公司里就是产品团队,了解他们的需求,然后制定培养计划,选取合适的教材,编写考核试卷,并对AI的答卷进行打分。她还需要将专业的知识“翻译”成大白话,让一线标注员也能轻松理解。标注规则的可操作性,是考察一位专家型AI训练师的核心标准。

为了满足一项提升模型意图识别能力的需求,刘到闲需要厘清用户意图的类别,并尽可能详尽地列举出来,然后给每个类别赋予清晰的定义,明确不同分类之间的边界。例如,用户说“我很伤心”,她在标注规则中写上这是在寻求情感支持;用户描述了一件开心事,她则定义为分享个人生活。

刘到闲是985高校毕业的语言学硕士,曾在科技媒体工作过一年。因为厌倦了媒体工作24小时待命的生活,她开始寻找让创作与科技结合的另一种可能性,比如“喂养AI”。这是一个难得的转行机会。ChatGPT的走红带来了生成式AI和预训练模型的爆发,模型经过“堆量”训练后展现出的智能让业内外惊叹。她看到了数据标注在模型训练中的重要性,决定踏上这波风口,离前沿技术更近一点。

和刘到闲一样做数据标注的同事基本都是硕士研究生学历,在公司内部被划分为运营岗。他们中的一部分是冲着AGI(通用人工智能)理想来的,另一部分是冲着大厂正编和高收入来的。在人工智能风口面前,数据标注岗位成了为数不多非技术背景员工的职业跳板。

然而,专家型数据标注师的要求也越来越高。据刘到闲观察,目前大厂招聘AI数据专家的学历要求大多为硕士研究生,且需要在相关专业领域有所积累,如医疗、法律、财经等。连最基础的一线数据标注员的门槛也在提升,大模型公司下游的数据标注岗也会对应聘者是否毕业于211高校有偏好。

阿娟亲历了数据标注行业的变化。作为一线数据标注员,她原本以为自己的工作会和刘到闲一样。她毕业于一所民办普通高校,误打误撞进入了这个行业。2020年,在朋友的介绍下,阿娟第一次听说了“数据标注员”的工作。那时的招聘要求简单,只要会用办公软件就行。她抱着试试的心态报了名,通过培训考试后上岗工作。和她一起入职的基本都是宜君本地人,有孩子母亲,也有中专刚毕业的年轻人。

最初的标注任务主要是图像类,涉及外卖、保险、医疗等领域。阿娟印象深刻的是一个宠物鼻纹项目。宠物主人会给宠物买保险,鼻纹是区分相同品种、长相相似宠物的关键。她和同事需要给宠物照片中的鼻子部分画框,帮助AI识别鼻纹。这个项目让阿娟感受到了工作的价值感,尽管她所在的小县城几乎没有人会给宠物上保险。

随着工作的深入,阿娟接触到了更多文本类的项目。项目类型换得很快,业务需求庞杂。有时前一周还在做合同文件标注,下周就换成了医学论文数据提取。经理给什么项目,阿娟和同事们就照着标注规范去完成。工作近两年后,阿娟的同事越来越多,原本的小办公室容纳不下,两百多个人搬进了敞亮的写字楼。她明显感觉任务难度在上升,公司招聘的学历要求已经提高到了大专以上。

在一个视频侵权类项目的标注中,阿娟需要判断给定的关键词和视频内容的关联度。她和组员需要基于对关键词和视频内容的理解,按照标注规范一一对应标注。项目越来越复杂,同事的工作能力越来越高,但阿娟和同事们并不清楚这些变化是如何发生的。对处于行业末端的她们来说,和AI大模型有关的一切都在混沌间发生。

传统的标注依赖规则,生成式大模型标注则需要逻辑,比如标注推理步骤或多模态对齐等任务,要求标注员具备抽象思维能力和跨学科知识储备,普通劳动力无法胜任。无数的普通标注员正在陆续被行业淘汰。

阿娟工作内容的变化和刘到闲有机会转行做数据专家,都是同一件事的结果——大模型公司为了生存,必须卷高质量数据。2023年,大模型公司招算法专家、投入算力资源训练模型,比拼模型参数大小和迭代速度。然而,大家拉不开差距,模型无法在生产力领域足够胜任,训练成本短时间收不回来。

到了2024年,大模型公司开始面临生死考验:从哪赚钱?怎么活下去?怎么实现大模型在垂直场景的商业化落地?甚至有头部大模型公司放弃预训练,全面转向应用开发,把资源投入到能赚钱的事情上。一个共识是,要想在专业领域落地,高质量的垂类数据是竞争的核心。专业型的数据专家不仅能显著提升标注效率,还能帮助优化数据采集策略。

像刘到闲这样有垂直领域专业知识的AI训练师成了香饽饽。一家上市公司为了研发音乐模型,甚至计划找一位音乐学院就读的学生做顾问。因为只有音乐专业的人才能分辨出模型生成的音乐是否合理,才能知道如何调整韵律和乐器以辅助模型生成更好的结果。

然而,这条“捷径”并不好走。为了确保工作质量,大型AI公司越来越多地把高质量数据标注的工作放到了内部,或者直接雇佣专家,而不是以往的外包。数据成了壁垒,也是另一个烧钱游戏。

对于阿娟来说,她还没有时间去思考这些变化带来的长远影响。工作八个月后,她就升为了小组长,至今已有18位组员。她需要为组员的标注准确率和效率负责,多了些向上沟通的工作,工资也涨到了四千多元一个月。在小县城生活,这些钱已经让她感到很幸福。她计划多攒攒工作年限,这两年再升个项目经理。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version