大模型下半场:谁在掘金数据标注?

两个月前,Meta豪掷约150亿美元(约合人民币1078亿元)入股Scale AI,一举拿下49%股份。交易完成后,Scale估值被推高至290亿美元。

作为硅谷AI赛道近几年最猛的黑马,Scale AI从成立到估值飙升至138亿美元,仅用了5年时间,几乎创造了一个行业的神话。

这家公司的主业,是数据标注。低成本的员工门槛和海量的人工参与,这个看似枯燥且“苦力活”的领域,长期以来被视为是AI产业链里最不性感、最缺乏想象力的一环。

然而,正是凭借这门“脏活累活”,Scale在大模型时代迅速完成了从幕后到台前的跃迁,成为硅谷最炙手可热的明星公司。Meta的出手,则进一步将数据标注这个原本处于产业底层的环节,推向了聚光灯下。

更耐人寻味的是,这场收购并不仅仅是资本层面的“下注”。

作为交易的一部分,Scale创始人兼CEO汪滔将卸任,带领部分核心员工加入Meta,组建所谓的「超级智能小组」,同时保留Scale董事会席位。换句话说,Meta买的不只是数据,更是汪滔本人的战略眼光和执行能力。

这场来势汹汹的收购背后,折射出的是Meta的数据焦虑。

2024年,Meta推出的Llama4Behemoth,曾因训练数据质量问题饱受诟病,原因在于Llama4Behemoth约30%的语料源自低质量社交媒体内容,导致模型在多模态理解、长文本推理等核心指标上,仍落后GPT-4.5约12%。对Meta而言,缺乏高质量数据成为了限制其模型追赶的最大短板。

某种程度上,在AI模型训练对数据依赖日益加深的当下,数据标注作为模型训练的第一道防线,其战略地位正在被重新估值。

01从苦力活到智能化,数据标注进化之路

什么是数据标注?

一句话概括,就是给原始数据打上标签,把“人类能理解的信息”转化为“AI能识别的训练样本”。比如在自动驾驶场景中,采集车上传的只是道路影像,但AI无法直接看懂。只有当人类标注员把车道线、路牌、行人等元素逐一框选、标记,这些影像才真正具备训练价值。

在这个行业里,大致存在三类玩家:

第一类是纯人力型公司。依靠大量低成本劳动力完成标注,适合做图像分类、语音转写等标准化任务。技术门槛不高,客户往往需要自带工具和平台,符合大众对“数据标注就是体力活”的固有印象。

第二类是互联网大厂的众包平台。典型代表如京东众智、百度众测,主要用于满足公司自身业务场景需求,再通过众包机制把任务拆解、分发给外部劳动力池。

第三类则是智能型服务商。这类公司具备自主研发平台和算法能力,能提供自动化标注工具、质量控制体系以及高度定制化的解决方案,尤其擅长3D点云、多模态等复杂任务,往往在效率和准确性上显著领先同行。

长期以来,前两类公司本质上都是“人力堆砌型”企业,规模和利润空间有限,天花板非常明显。尤其是第一类,更多时候只是第三类智能公司的外包池子。事实上,今天大多数头部智能型企业,几乎都是从这种人力公司一步步进化而来。

以行业龙头Scale AI为例,它的前身其实叫“ScaleAPI”。最初,它并不是一家数据平台公司,而是提供一个“人力API”:开发者只需写一行代码,就能调度一支远程劳动力团队,帮忙完成内容审核、数据提取、预约安排等琐碎任务。

这种以人工驱动的轻量模式,既帮Scale拿下了丰田、本田等早期大客户,也积累了大量高价值数据。

有了基础数据的积累,再加上AI能力的升级,自2018年起,Scale就开始逐步用模型替代掉部分重复性、套路化的人力工作,构建起一套“机器预标注+人工复核”的混合工作流。先由算法完成预标注,再由人工专家审核和修正。

这种AI代替的模式,为公司的效率和质量带来了双重提升。根据OpenAI的测算,ChatGPT的平均标注成本低于0.003美元,比传统众包平台便宜20倍。而在准确率上,GPT-4完成的标注结果可达到88.4%,甚至超过了人类标注员的86.2%。

02全球数据标注版图:美国为何能占四成?

根据DMR(DimensionMarketResearch)在2024年7月发布的预测报告,全球数据标注行业市场规模约为20亿美元,其中美国市场规模为8.38亿美元,占据约40%的份额。这也是目前能查到的最新数据。

为什么美国能长期占据全球数据标注的主导地位?

一方面,数据标注本质上是人力密集型产业。标注员的工作门槛低、流动性大,导致人力几乎成为成本控制的核心竞争力。

为了减轻组织压力,企业通常会选择外包或众包的方式来派发项目。在这一点上,美国公司凭借全球化分工的优势,将基础标注任务外包给低成本国家,实现了极致的成本压缩。

典型的例子,Scale AI通过旗下众包平台Remotasks,它将最基础的框选标注任务分发给菲律宾、肯尼亚等低成本地区。除官网披露的900名正式员工外,其平台上注册工人超过24万人,遍布全球。

其次,在技术水平和自动化程度上,国内外厂商存在明显差距。目前国内最大的标注公司云测数据,早在2021年就尝试引入自动标注功能,但应用范围仍主要集中在智能驾驶领域;另一家专注语音的海天瑞声,也在研发自动语音切割等工具,但整体智能化水平有限,仍高度依赖人工。

相比之下,Scale AI在2018年就布局自动化标注,虽然同样是自动驾驶起家,但业务已经扩展到语言、金融、医疗甚至军事等领域。

更重要的是,Scale AI不只是一家单纯的数据标注商公司,此次 Meta重金挖走的汪滔,被称为华裔“天才少年”,19岁那年从美国麻省理工学院辍学,创立Scale AI,在最近的一段采访中,他提到,不仅是数据标注,在招聘流程、质控流程、数据分析、销售报告等环节,Scale AI都已经实现了自动化管理。

某种程度上来说,作为一个因大模型训练需求而诞生的行业,国内企业布局的短板,很大程度上是由市场需求的缺失所决定的。

数据标注最大的两个服务场景分别是大模型和自动驾驶,而这两个产业的绝对主力军大多分布美国。出于数据天然涉及隐私和安全考量,企业更倾向于选择本国标注商合作。

正因此,美国既孕育出了Scale这样的全能型选手,还有surgeAI、Turing这样面向微调服务,以及Lionbridge这样面向文本、语音的数据公司。

相比之下,国内由于本身劳动力较为密集,互联网大厂通常会采用众包模式而非专门标注公司,且在部分模型采用蒸馏的前提下,国内市场需求要远少于国外。

03大模型下半场,数据标注地位正在反转

随着AI技术的快速迭代,业界曾一度流传一种观点:AI标注与合成数据将彻底取代人工标注。但就目前的技术现实而言,这种可能性依然遥远。

AI标注的前提,是数据结构和规则高度明确,并且有充足的历史样本支撑。因此,它的应用范围天然受限,目前仍只能覆盖交通图像、人脸识别等较为标准化的任务。

在工作流上,AI主要替代的是标注的中游环节,而规则制定、质量把关等关键节点,仍然需要人工介入。

与此同时,随着大模型逐渐强调垂直化场景,训练重心也从预训练转向了强化学习。不同于预训练对数据质量要求相对宽松,强化学习更依赖高精细度和专业化数据,常常涉及医疗影像、法律文本、情感语言等高门槛领域。

这种变化使得标注员的角色愈发复杂。

他们不仅要具备专业知识,还需要抽象思维与跨学科能力。正如一位业内人士所说,如今的任务往往牵涉推理链条、多模态对齐等新场景,“早已不是简单的框选和分类能够解决的”。

Surge AI就是这一趋势的典型代表。该公司自2020年创立起,就将核心放在高质量数据的生成上,例如为编程模型提供优质代码数据,以提升模型性能。凭借这种定位,SurgeAI在2024年的营收已达到10亿美元,甚至超越了行业老大Scale AI的8.7亿美元。

另一条被寄予厚望的替代路径是合成数据。理论上,它能够在数据不足时填补空缺,但现实问题不容忽视:合成数据毕竟是在既有条件下生成的,当现实场景发生变化,它难以保持有效性;同时,数据安全风险也限制了其大规模泛化的可能。

从这个角度来看,数据标注并不会消失,而是会向更高质量、更强专业化方向演进。

回顾过去,数据标注长期被视为“三驾马车”里最弱的一环:算法有OpenAI,算力有英伟达,而在数据标注领域,即便是行业龙头Scale AI,其市值也不到OpenAI的十分之一。

究其原因,很大程度上源于行业门槛低、收入上限有限。但当AI模型训练进入下半场,数据标注的技术壁垒被不断拔高,Meta对Scale AI的收购,只是一个开始,在不远的将来,数据资源正在被推向产业竞争的核心。

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/96232.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年9月3日 上午9:10
下一篇 2025年9月3日 上午9:48

相关推荐

  • 周六福五战IPO:金饰每克便宜上百元,李氏兄弟1年半分红近9亿

    数次闯关IPO失败的周六福,上市决心依旧不改。 2月最后一天,周六福珠宝股份有限公司(以下简称:周六福)递表港交所,中金公司、中信建投国际为联席保荐人。 这是继2024年6月递交的招股书失效后,周六福第二次冲击港交所。在此之前,周六福还曾三度冲击深交所未果,在资本市场门外苦熬多年。 这似乎与黄金市场的火热格格不入。近两年来,黄金首饰消费热潮迭起,黄金的任何风…

    2025年3月11日
    16500
  • 百雀擎云启新篇,国货燎原塑标杆

    在被誉为“中国健康产业风向标”的2025年西普会期间,百年民族企业百雀羚集团旗下核心战略先锋百雀羚生物医药以“百雀擎云・国货燎原”为主题,通过系列高规格议程,全面呈现“东方智慧×全球科技”的创新成果。从战略定调到生态共建,从科研分享到渠道革新,从科技绽放至成果落地,这场贯穿西普会始终的产业盛宴,为中国医美产业从“单点突破”向“体系化创新”进阶注入了强劲动力,…

    2025年8月20日
    11900
  • 爱玛×黄油小熊:以可爱之名,重塑女性出行美学

    当“可爱经济”席卷都市,女性对出行的期待早已超越代步本身,爱玛携手黄油小熊以“可爱自成一路”为宣言,给中国女生献上一份可爱提案,推出四款萌系座驾。结合爱玛的精品战略,融入黄油小熊的萌趣美学与前沿科技,重新定义两轮出行的时尚与情感属性,为年轻女性带来兼具个性表达与实功能用的“时尚出行搭子”。 爱玛X黄油⼩熊可爱联名发布会现场 正如爱玛科技集团女性时尚产品线总监…

    2025年7月20日
    11000
  • 上市四年,寒武纪走出盈利第一步

    4月18日,“国产AI芯片第一股”寒武纪发布了2024年年报及2025年一季报。其中,2024年实现营业收入11.74亿元,同比增长65.56%。2025年第一季度,寒武纪营业收入达11.11亿元,同比大增42倍。 而在盈利方面,2024年第四季度,寒武纪也迎来了盈利拐点,实现营业收入9.89亿元,同比增长75.51%,归母净利润2.72亿元。这也是寒武纪历…

    2025年4月24日
    12500
  • 从赚差价到做生意,品牌代理进入“2.0时代”

    万万没想到,三次退出中国市场的美国快时尚品牌Forever 21又杀回来了。 6月初,拥有Forever 21商标及知识产权的品牌管理公司ABG宣布和上海橙迪贸易有限公司(简称橙迪贸易)达成合作,后者将负责品牌在中国市场的产品生产、销售与市场营销等全面工作。公开信息显示,唯品会是橙迪贸易股东之一,持股量达35%。此次Forever 21重返中国,唯品会或许正…

    2025年8月18日
    10700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信