大模型下半場(chǎng):誰(shuí)在掘金數(shù)據(jù)標(biāo)注?
AI訓(xùn)練下半場(chǎng),數(shù)據(jù)成為關(guān)鍵詞。
新眸原創(chuàng)·作者 | 簡(jiǎn)瑜
兩個(gè)月前,Meta豪擲約150億美元(約合人民幣1078億元)入股Scale AI,一舉拿下49%股份。交易完成后,Scale估值被推高至290億美元。
作為硅谷AI賽道近幾年最猛的黑馬,Scale AI從成立到估值飆升至138億美元,僅用了5年時(shí)間,幾乎創(chuàng)造了一個(gè)行業(yè)的神話。
這家公司的主業(yè),是數(shù)據(jù)標(biāo)注。低成本的員工門(mén)檻和海量的人工參與,這個(gè)看似枯燥且“苦力活”的領(lǐng)域,長(zhǎng)期以來(lái)被視為是AI產(chǎn)業(yè)鏈里最不性感、最缺乏想象力的一環(huán)。
然而,正是憑借這門(mén)“臟活累活”,Scale在大模型時(shí)代迅速完成了從幕后到臺(tái)前的躍遷,成為硅谷最炙手可熱的明星公司。Meta的出手,則進(jìn)一步將數(shù)據(jù)標(biāo)注這個(gè)原本處于產(chǎn)業(yè)底層的環(huán)節(jié),推向了聚光燈下。
更耐人尋味的是,這場(chǎng)收購(gòu)并不僅僅是資本層面的“下注”。
作為交易的一部分,Scale創(chuàng)始人兼CEO汪滔將卸任,帶領(lǐng)部分核心員工加入Meta,組建所謂的「超級(jí)智能小組」,同時(shí)保留Scale董事會(huì)席位。換句話說(shuō),Meta買(mǎi)的不只是數(shù)據(jù),更是汪滔本人的戰(zhàn)略眼光和執(zhí)行能力。
這場(chǎng)來(lái)勢(shì)洶洶的收購(gòu)背后,折射出的是Meta的數(shù)據(jù)焦慮。
2024年,Meta推出的Llama4Behemoth,曾因訓(xùn)練數(shù)據(jù)質(zhì)量問(wèn)題飽受詬病,原因在于Llama4Behemoth約30%的語(yǔ)料源自低質(zhì)量社交媒體內(nèi)容,導(dǎo)致模型在多模態(tài)理解、長(zhǎng)文本推理等核心指標(biāo)上,仍落后GPT-4.5約12%。對(duì)Meta而言,缺乏高質(zhì)量數(shù)據(jù)成為了限制其模型追趕的最大短板。
某種程度上,在AI模型訓(xùn)練對(duì)數(shù)據(jù)依賴日益加深的當(dāng)下,數(shù)據(jù)標(biāo)注作為模型訓(xùn)練的第一道防線,其戰(zhàn)略地位正在被重新估值。
從苦力活到智能化 數(shù)據(jù)標(biāo)注進(jìn)化之路
什么是數(shù)據(jù)標(biāo)注?
一句話概括,就是給原始數(shù)據(jù)打上標(biāo)簽,把“人類(lèi)能理解的信息”轉(zhuǎn)化為“AI能識(shí)別的訓(xùn)練樣本”。比如在自動(dòng)駕駛場(chǎng)景中,采集車(chē)上傳的只是道路影像,但AI無(wú)法直接看懂。只有當(dāng)人類(lèi)標(biāo)注員把車(chē)道線、路牌、行人等元素逐一框選、標(biāo)記,這些影像才真正具備訓(xùn)練價(jià)值。
在這個(gè)行業(yè)里,大致存在三類(lèi)玩家:
第一類(lèi)是純?nèi)肆π凸。依靠大量低成本勞?dòng)力完成標(biāo)注,適合做圖像分類(lèi)、語(yǔ)音轉(zhuǎn)寫(xiě)等標(biāo)準(zhǔn)化任務(wù)。技術(shù)門(mén)檻不高,客戶往往需要自帶工具和平臺(tái),符合大眾對(duì)“數(shù)據(jù)標(biāo)注就是體力活”的固有印象。
第二類(lèi)是互聯(lián)網(wǎng)大廠的眾包平臺(tái)。典型代表如京東眾智、百度眾測(cè),主要用于滿足公司自身業(yè)務(wù)場(chǎng)景需求,再通過(guò)眾包機(jī)制把任務(wù)拆解、分發(fā)給外部勞動(dòng)力池。
第三類(lèi)則是智能型服務(wù)商。這類(lèi)公司具備自主研發(fā)平臺(tái)和算法能力,能提供自動(dòng)化標(biāo)注工具、質(zhì)量控制體系以及高度定制化的解決方案,尤其擅長(zhǎng)3D點(diǎn)云、多模態(tài)等復(fù)雜任務(wù),往往在效率和準(zhǔn)確性上顯著領(lǐng)先同行。
長(zhǎng)期以來(lái),前兩類(lèi)公司本質(zhì)上都是“人力堆砌型”企業(yè),規(guī)模和利潤(rùn)空間有限,天花板非常明顯。尤其是第一類(lèi),更多時(shí)候只是第三類(lèi)智能公司的外包池子。事實(shí)上,今天大多數(shù)頭部智能型企業(yè),幾乎都是從這種人力公司一步步進(jìn)化而來(lái)。
以行業(yè)龍頭Scale AI為例,它的前身其實(shí)叫“ScaleAPI”。最初,它并不是一家數(shù)據(jù)平臺(tái)公司,而是提供一個(gè)“人力API”:開(kāi)發(fā)者只需寫(xiě)一行代碼,就能調(diào)度一支遠(yuǎn)程勞動(dòng)力團(tuán)隊(duì),幫忙完成內(nèi)容審核、數(shù)據(jù)提取、預(yù)約安排等瑣碎任務(wù)。
這種以人工驅(qū)動(dòng)的輕量模式,既幫Scale拿下了豐田、本田等早期大客戶,也積累了大量高價(jià)值數(shù)據(jù)。
有了基礎(chǔ)數(shù)據(jù)的積累,再加上AI能力的升級(jí),自2018年起,Scale就開(kāi)始逐步用模型替代掉部分重復(fù)性、套路化的人力工作,構(gòu)建起一套“機(jī)器預(yù)標(biāo)注+人工復(fù)核”的混合工作流。先由算法完成預(yù)標(biāo)注,再由人工專(zhuān)家審核和修正。
這種AI代替的模式,為公司的效率和質(zhì)量帶來(lái)了雙重提升。根據(jù)OpenAI的測(cè)算,ChatGPT的平均標(biāo)注成本低于0.003美元,比傳統(tǒng)眾包平臺(tái)便宜20倍。而在準(zhǔn)確率上,GPT-4完成的標(biāo)注結(jié)果可達(dá)到88.4%,甚至超過(guò)了人類(lèi)標(biāo)注員的86.2%。
全球數(shù)據(jù)標(biāo)注版圖:美國(guó)為何能占四成?
根據(jù)DMR(DimensionMarketResearch)在2024年7月發(fā)布的預(yù)測(cè)報(bào)告,全球數(shù)據(jù)標(biāo)注行業(yè)市場(chǎng)規(guī)模約為20億美元,其中美國(guó)市場(chǎng)規(guī)模為8.38億美元,占據(jù)約40%的份額。這也是目前能查到的最新數(shù)據(jù)。
為什么美國(guó)能長(zhǎng)期占據(jù)全球數(shù)據(jù)標(biāo)注的主導(dǎo)地位?
一方面,數(shù)據(jù)標(biāo)注本質(zhì)上是人力密集型產(chǎn)業(yè)。標(biāo)注員的工作門(mén)檻低、流動(dòng)性大,導(dǎo)致人力幾乎成為成本控制的核心競(jìng)爭(zhēng)力。
為了減輕組織壓力,企業(yè)通常會(huì)選擇外包或眾包的方式來(lái)派發(fā)項(xiàng)目。在這一點(diǎn)上,美國(guó)公司憑借全球化分工的優(yōu)勢(shì),將基礎(chǔ)標(biāo)注任務(wù)外包給低成本國(guó)家,實(shí)現(xiàn)了極致的成本壓縮。
典型的例子,Scale AI通過(guò)旗下眾包平臺(tái)Remotasks,它將最基礎(chǔ)的框選標(biāo)注任務(wù)分發(fā)給菲律賓、肯尼亞等低成本地區(qū)。除官網(wǎng)披露的900名正式員工外,其平臺(tái)上注冊(cè)工人超過(guò)24萬(wàn)人,遍布全球。
其次,在技術(shù)水平和自動(dòng)化程度上,國(guó)內(nèi)外廠商存在明顯差距。目前國(guó)內(nèi)最大的標(biāo)注公司云測(cè)數(shù)據(jù),早在2021年就嘗試引入自動(dòng)標(biāo)注功能,但應(yīng)用范圍仍主要集中在智能駕駛領(lǐng)域;另一家專(zhuān)注語(yǔ)音的海天瑞聲,也在研發(fā)自動(dòng)語(yǔ)音切割等工具,但整體智能化水平有限,仍高度依賴人工。
相比之下,Scale AI在2018年就布局自動(dòng)化標(biāo)注,雖然同樣是自動(dòng)駕駛起家,但業(yè)務(wù)已經(jīng)擴(kuò)展到語(yǔ)言、金融、醫(yī)療甚至軍事等領(lǐng)域。
更重要的是,Scale AI不只是一家單純的數(shù)據(jù)標(biāo)注商公司,此次 Meta重金挖走的汪滔,被稱(chēng)為華裔“天才少年”,19歲那年從美國(guó)麻省理工學(xué)院輟學(xué),創(chuàng)立Scale AI,在最近的一段采訪中,他提到,不僅是數(shù)據(jù)標(biāo)注,在招聘流程、質(zhì)控流程、數(shù)據(jù)分析、銷(xiāo)售報(bào)告等環(huán)節(jié),Scale AI都已經(jīng)實(shí)現(xiàn)了自動(dòng)化管理。
某種程度上來(lái)說(shuō),作為一個(gè)因大模型訓(xùn)練需求而誕生的行業(yè),國(guó)內(nèi)企業(yè)布局的短板,很大程度上是由市場(chǎng)需求的缺失所決定的。
數(shù)據(jù)標(biāo)注最大的兩個(gè)服務(wù)場(chǎng)景分別是大模型和自動(dòng)駕駛,而這兩個(gè)產(chǎn)業(yè)的絕對(duì)主力軍大多分布美國(guó)。出于數(shù)據(jù)天然涉及隱私和安全考量,企業(yè)更傾向于選擇本國(guó)標(biāo)注商合作。
正因此,美國(guó)既孕育出了Scale這樣的全能型選手,還有surgeAI、Turing這樣面向微調(diào)服務(wù),以及Lionbridge這樣面向文本、語(yǔ)音的數(shù)據(jù)公司。
相比之下,國(guó)內(nèi)由于本身勞動(dòng)力較為密集,互聯(lián)網(wǎng)大廠通常會(huì)采用眾包模式而非專(zhuān)門(mén)標(biāo)注公司,且在部分模型采用蒸餾的前提下,國(guó)內(nèi)市場(chǎng)需求要遠(yuǎn)少于國(guó)外。
大模型下半場(chǎng),數(shù)據(jù)標(biāo)注地位正在反轉(zhuǎn)
隨著AI技術(shù)的快速迭代,業(yè)界曾一度流傳一種觀點(diǎn):AI標(biāo)注與合成數(shù)據(jù)將徹底取代人工標(biāo)注。但就目前的技術(shù)現(xiàn)實(shí)而言,這種可能性依然遙遠(yuǎn)。
AI標(biāo)注的前提,是數(shù)據(jù)結(jié)構(gòu)和規(guī)則高度明確,并且有充足的歷史樣本支撐。因此,它的應(yīng)用范圍天然受限,目前仍只能覆蓋交通圖像、人臉識(shí)別等較為標(biāo)準(zhǔn)化的任務(wù)。
在工作流上,AI主要替代的是標(biāo)注的中游環(huán)節(jié),而規(guī)則制定、質(zhì)量把關(guān)等關(guān)鍵節(jié)點(diǎn),仍然需要人工介入。
與此同時(shí),隨著大模型逐漸強(qiáng)調(diào)垂直化場(chǎng)景,訓(xùn)練重心也從預(yù)訓(xùn)練轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)。不同于預(yù)訓(xùn)練對(duì)數(shù)據(jù)質(zhì)量要求相對(duì)寬松,強(qiáng)化學(xué)習(xí)更依賴高精細(xì)度和專(zhuān)業(yè)化數(shù)據(jù),常常涉及醫(yī)療影像、法律文本、情感語(yǔ)言等高門(mén)檻領(lǐng)域。
這種變化使得標(biāo)注員的角色愈發(fā)復(fù)雜。
他們不僅要具備專(zhuān)業(yè)知識(shí),還需要抽象思維與跨學(xué)科能力。正如一位業(yè)內(nèi)人士所說(shuō),如今的任務(wù)往往牽涉推理鏈條、多模態(tài)對(duì)齊等新場(chǎng)景,“早已不是簡(jiǎn)單的框選和分類(lèi)能夠解決的”。
Surge AI就是這一趨勢(shì)的典型代表。該公司自2020年創(chuàng)立起,就將核心放在高質(zhì)量數(shù)據(jù)的生成上,例如為編程模型提供優(yōu)質(zhì)代碼數(shù)據(jù),以提升模型性能。憑借這種定位,SurgeAI在2024年的營(yíng)收已達(dá)到10億美元,甚至超越了行業(yè)老大Scale AI的8.7億美元。
另一條被寄予厚望的替代路徑是合成數(shù)據(jù)。理論上,它能夠在數(shù)據(jù)不足時(shí)填補(bǔ)空缺,但現(xiàn)實(shí)問(wèn)題不容忽視:合成數(shù)據(jù)畢竟是在既有條件下生成的,當(dāng)現(xiàn)實(shí)場(chǎng)景發(fā)生變化,它難以保持有效性;同時(shí),數(shù)據(jù)安全風(fēng)險(xiǎn)也限制了其大規(guī)模泛化的可能。
從這個(gè)角度來(lái)看,數(shù)據(jù)標(biāo)注并不會(huì)消失,而是會(huì)向更高質(zhì)量、更強(qiáng)專(zhuān)業(yè)化方向演進(jìn)。
回顧過(guò)去,數(shù)據(jù)標(biāo)注長(zhǎng)期被視為“三駕馬車(chē)”里最弱的一環(huán):算法有OpenAI,算力有英偉達(dá),而在數(shù)據(jù)標(biāo)注領(lǐng)域,即便是行業(yè)龍頭Scale AI,其市值也不到OpenAI的十分之一。
究其原因,很大程度上源于行業(yè)門(mén)檻低、收入上限有限。但當(dāng)AI模型訓(xùn)練進(jìn)入下半場(chǎng),數(shù)據(jù)標(biāo)注的技術(shù)壁壘被不斷拔高,Meta對(duì)Scale AI的收購(gòu),只是一個(gè)開(kāi)始,在不遠(yuǎn)的將來(lái),數(shù)據(jù)資源正在被推向產(chǎn)業(yè)競(jìng)爭(zhēng)的核心。
原文標(biāo)題 : 大模型下半場(chǎng):誰(shuí)在掘金數(shù)據(jù)標(biāo)注?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀察
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 9 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 10 Manus跑路,大廠掉線,只能靠DeepSeek了