數(shù)據(jù)永動(dòng)機(jī)?合成數(shù)據(jù)的美夢(mèng)與陷阱
距離數(shù)據(jù)用光還剩3年時(shí)間。
以上是研究機(jī)構(gòu)Epoch給出的一個(gè)初步估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語(yǔ)言數(shù)據(jù)”,低質(zhì)量的語(yǔ)言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。
數(shù)十億參數(shù)起步,以TB為單位的數(shù)據(jù)集喂養(yǎng),百模大戰(zhàn),千模大戰(zhàn)的持續(xù)上演,正在以燃盡數(shù)據(jù)為代價(jià),當(dāng)數(shù)據(jù)荒變成直觀(guān)的倒計(jì)時(shí)時(shí),這種迫近的危機(jī)感才開(kāi)始在整個(gè)產(chǎn)業(yè)圈蔓延。
高質(zhì)量數(shù)據(jù)告急
第一個(gè)感受到數(shù)據(jù)荒危機(jī)的便是那些亟需數(shù)據(jù)的AI公司們。
繼算力缺口后,數(shù)據(jù)成為最緊俏的資源,數(shù)據(jù)采集要價(jià)也在水漲船高。自2008年以來(lái),Reddit API一直是以免費(fèi)的方式開(kāi)放給第三方,然而近期,Reddit通知開(kāi)發(fā)者將從7月1日開(kāi)始使用用數(shù)據(jù)接口進(jìn)行收費(fèi)。根據(jù)第三方軟件Apollo的開(kāi)發(fā)者Christian Selig透露,Reddit的收費(fèi)為0.24美元/1000次API響應(yīng)。對(duì)于Apollo來(lái)說(shuō),這就相當(dāng)于200萬(wàn)美元每月或2000萬(wàn)美元每年的開(kāi)銷(xiāo)。
而根據(jù)推特今年3月發(fā)布的API新政策,企業(yè)需要為抓取推文的API支付每月4萬(wàn)美元至20萬(wàn)美元不等的費(fèi)用,對(duì)應(yīng)可以獲得5000萬(wàn)至2億條推文。根據(jù)測(cè)算,最低一個(gè)檔次的套餐約等于整體推文的0.3%。
數(shù)據(jù)變貴了,這點(diǎn)已經(jīng)成為業(yè)界心照不宣的共識(shí),而大模型混戰(zhàn)無(wú)疑讓數(shù)據(jù)供不應(yīng)求的局面進(jìn)一步加劇。
已有的(通用)數(shù)據(jù)資源似乎已經(jīng)接近效能極限,Cohere首席執(zhí)行官Aiden Gomez表示,網(wǎng)絡(luò)上那些通用數(shù)據(jù)已不足以推動(dòng)AI模型的性能發(fā)展。
的確,大模型競(jìng)賽就像上了發(fā)條一樣,一旦觸發(fā),便沒(méi)有停下來(lái)的間隙,需要保證不斷的攝取營(yíng)養(yǎng),當(dāng)大模型發(fā)展走向更深度,比如行業(yè)大模型,其所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費(fèi)公開(kāi)的數(shù)據(jù)了,要訓(xùn)練出精度極高的的模型,需要的是行業(yè)專(zhuān)業(yè)知識(shí),甚至商業(yè)機(jī)密類(lèi)型的知識(shí)。
而恰恰目前全球數(shù)據(jù)供給的現(xiàn)狀,70%的數(shù)據(jù)源都僅僅停留在免費(fèi)公開(kāi)數(shù)據(jù)集的層面,這與大模型成長(zhǎng)所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn),一些行業(yè)的垂類(lèi)大數(shù)據(jù),比如金融、醫(yī)療、科研、行業(yè)型大數(shù)據(jù)還遠(yuǎn)未開(kāi)掘,一位業(yè)內(nèi)人士透露。垂類(lèi)數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,而出于數(shù)據(jù)安全合規(guī)的考慮,行業(yè)機(jī)構(gòu)愿意把核心數(shù)據(jù)拿出來(lái)開(kāi)放共享的又在少數(shù)。而從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,這個(gè)數(shù)據(jù)形態(tài)演變的過(guò)程,需要經(jīng)歷數(shù)據(jù)的篩選、分級(jí)和標(biāo)注,中間附著的人力成本和硬件成本都極為不菲,初始收集的數(shù)據(jù)總量,到最后可用的數(shù)據(jù)量可能只有70%,相比于算力,數(shù)據(jù)的稀缺性更為突出。
如果說(shuō)全球都難逃數(shù)據(jù)荒,那么“重災(zāi)區(qū)”更顯見(jiàn)于中文語(yǔ)料。
可能會(huì)有人說(shuō),中國(guó)有14億人口和5千余家上市公司,全社會(huì)的數(shù)據(jù)資源存量排在全球第二,應(yīng)該在數(shù)據(jù)上是長(zhǎng)板,但數(shù)據(jù)表明,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語(yǔ)料的占比僅為1.3%,一些主流數(shù)據(jù)集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中文數(shù)據(jù)也只占其4.8%。“大而不強(qiáng)”是中國(guó)數(shù)據(jù)市場(chǎng)比較刺眼的現(xiàn)實(shí),在國(guó)內(nèi)來(lái)看,據(jù)統(tǒng)計(jì),數(shù)據(jù)資源80%集中在公共和政府事業(yè)單位。而據(jù)發(fā)改委官方披露,我國(guó)政府?dāng)?shù)據(jù)資源占全國(guó)數(shù)據(jù)資源的比重超過(guò)3/4,但開(kāi)放規(guī)模不足美國(guó)的10%,個(gè)人和企業(yè)可以利用的規(guī)模更是不及美國(guó)的7%,開(kāi)放程度遠(yuǎn)低于美國(guó)。
流于“形式開(kāi)放”正成為我國(guó)公共數(shù)據(jù)開(kāi)放的癥結(jié),據(jù)公開(kāi)資料統(tǒng)計(jì),我國(guó)各級(jí)地方政務(wù)數(shù)據(jù)開(kāi)放網(wǎng)站開(kāi)放的數(shù)據(jù)普遍周期較長(zhǎng),地方平臺(tái)約有46%的平臺(tái)沒(méi)有更新數(shù)據(jù),只有8.5%的地方平臺(tái)連續(xù)兩年發(fā)布了新的數(shù)據(jù)集。
開(kāi)放程度低是一大掣肘,數(shù)據(jù)質(zhì)量差才是卡脖子的首要因素,目前的中文公開(kāi)數(shù)據(jù)集不是沒(méi)有,近2個(gè)月來(lái),國(guó)內(nèi)不少團(tuán)隊(duì)先后開(kāi)源了中文數(shù)據(jù)集,除通用數(shù)據(jù)集外,針對(duì)編程、醫(yī)療等垂域也有專(zhuān)門(mén)的開(kāi)源中文數(shù)據(jù)集發(fā)布。開(kāi)源的還包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數(shù)量和質(zhì)量,和英文數(shù)據(jù)集相比可謂九牛一毛。并且其中相當(dāng)一部分的內(nèi)容已經(jīng)非常陳舊。
數(shù)據(jù)荒有救了?合成數(shù)據(jù)成“新賽道“
數(shù)據(jù)的捉襟見(jiàn)肘讓大模型的進(jìn)化難以為繼,高質(zhì)量數(shù)據(jù)從哪里來(lái)?
舊路難循,便開(kāi)始造新路。7月25日,深圳數(shù)交所聯(lián)合近50家單位成立“開(kāi)放算料聯(lián)盟”,抱團(tuán)聚力。參與公司不僅有聯(lián)通、電信兩大運(yùn)營(yíng)商以及騰訊云,還有多家A股公司,合力匯集論文、政策、報(bào)告、標(biāo)準(zhǔn)、法律、代碼、古籍、中醫(yī)藥、基因及蛋白質(zhì)結(jié)構(gòu)等多模態(tài)的訓(xùn)練數(shù)據(jù),為數(shù)據(jù)交易增加合成數(shù)據(jù)、標(biāo)注數(shù)據(jù)、模型參數(shù)等新專(zhuān)區(qū)和新品類(lèi),合成數(shù)據(jù)正成為生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路。
何謂合成數(shù)據(jù)?合成數(shù)據(jù)即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù),來(lái)替代現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù),來(lái)保證真實(shí)數(shù)據(jù)的安全,比如用戶(hù)小A有10個(gè)特點(diǎn)、用戶(hù)小B有10個(gè)特點(diǎn)、用戶(hù)小C有10個(gè)特點(diǎn),合成數(shù)據(jù)將這30個(gè)特點(diǎn)進(jìn)行隨機(jī)打散匹配,形成3個(gè)全新的數(shù)據(jù)個(gè)體,這并不對(duì)準(zhǔn)真實(shí)世界的任何一個(gè)實(shí)體,但卻有訓(xùn)練價(jià)值,作為真實(shí)數(shù)據(jù)的“平替”,合成數(shù)據(jù)高效、廉價(jià)并且不涉及個(gè)人隱私和公共利益,且可以兼顧數(shù)據(jù)多樣性和公平性,理論上可以生成所有數(shù)據(jù),包括現(xiàn)實(shí)世界中難以采集或幾乎不存在于現(xiàn)實(shí)中的極端案例,最大化地提高模型的精準(zhǔn)度,糾正歷史數(shù)據(jù)中的偏見(jiàn)、消除算法歧視,優(yōu)越性不言而喻。
對(duì)于有些行業(yè)而言,合成數(shù)據(jù)具有天然的應(yīng)用適配度,比如自動(dòng)駕駛,讓汽車(chē)通過(guò)實(shí)際道路測(cè)試來(lái)窮盡其在道路上可能遇到的每一個(gè)場(chǎng)景是不現(xiàn)實(shí)的,故大量的合成數(shù)據(jù)可以用于模擬各種駕駛場(chǎng)景,從而提高算法的魯棒性。在這種情況下,合成數(shù)據(jù)可能占據(jù)訓(xùn)練數(shù)據(jù)的很大一部分,甚至高達(dá)90%以上。
而對(duì)于數(shù)據(jù)敏感的金融和生物醫(yī)藥領(lǐng)域,在不提供敏感的歷史交易信息的前提下,訓(xùn)練量化交易模型,從而提升獲利能力;而在藥物研發(fā)工作上,通過(guò)合成數(shù)據(jù)集,可以在不泄露患者隱私信息的條件下訓(xùn)練相關(guān)模型,加速新藥研發(fā)過(guò)程,發(fā)現(xiàn)潛在的治療方法,提高醫(yī)藥領(lǐng)域的效率和準(zhǔn)確性。
更重要的一點(diǎn)是,一直以來(lái),數(shù)據(jù)標(biāo)記都被視為現(xiàn)代機(jī)器學(xué)習(xí)中一個(gè)笨拙、不雅、成本高昂的部分,而合成數(shù)據(jù)不需要手動(dòng)標(biāo)記,自動(dòng)帶有完美的數(shù)據(jù)標(biāo)簽,這一點(diǎn)已經(jīng)足夠迷人。
巨大的剛需和高景氣度面前,合成數(shù)據(jù)不捧自火,國(guó)外的主流科技公司已經(jīng)在紛紛部署,比如英偉達(dá)的元宇宙平臺(tái)Omniverse擁有合成數(shù)據(jù)能力omniverse replicator;亞馬遜使用合成數(shù)據(jù)來(lái)訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶(hù)隱私問(wèn)題;微軟的Azure云服務(wù)推出了airSIM平臺(tái),可以創(chuàng)建高保真的3D虛擬環(huán)境來(lái)訓(xùn)練、測(cè)試AI驅(qū)動(dòng)的自主飛行器,微軟、OpenAI、Cohere等公司都已經(jīng)開(kāi)始測(cè)試使用合成數(shù)據(jù)來(lái)訓(xùn)練AI模型...
其中也少不了自動(dòng)駕駛汽車(chē)廠(chǎng)商們,早有布局,比如Waymo、Cruise、Aurora、Zoox等,都在合成數(shù)據(jù)和模擬方面進(jìn)行了大量投資,并將其作為其技術(shù)堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來(lái)訓(xùn)練其自動(dòng)駕駛系統(tǒng)(相比之下,從現(xiàn)實(shí)世界收集的駕駛數(shù)據(jù)僅為 300 萬(wàn)英里)。到 2019 年,這一數(shù)字已達(dá)到100 億英里。
而國(guó)內(nèi),騰訊、阿里巴巴、百度走在前列。騰訊自動(dòng)駕駛實(shí)驗(yàn)室開(kāi)發(fā)的自動(dòng)駕駛仿真系統(tǒng)TADSim可以自動(dòng)生成無(wú)需標(biāo)注的各種交通場(chǎng)景數(shù)據(jù);阿里巴巴自研的語(yǔ)音合成技術(shù)KAN-TTS可將合成語(yǔ)音與原始音頻錄音的接近程度提高到97%以上;百度也發(fā)布了多個(gè)數(shù)據(jù)合成與半自動(dòng)標(biāo)注工具。
值得關(guān)注的是,合成數(shù)據(jù)已經(jīng)自成賽道,一批瞄準(zhǔn)合成數(shù)據(jù)為主攻方向的數(shù)據(jù)新勢(shì)力集中涌現(xiàn),出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準(zhǔn)了自動(dòng)駕駛汽車(chē)終端市場(chǎng)。其中包括 Applied Intuition(2022年估值180億人民幣,入選全球獨(dú)角獸榜)、Parallel Domain 和 Cognata 等公司。
而近段時(shí)間以來(lái),圍繞為企業(yè)落地AI提供合成數(shù)據(jù)服務(wù)的初創(chuàng)企業(yè)也開(kāi)始瘋狂刷屏,國(guó)內(nèi)合成數(shù)據(jù)公司光輪智能于今年1月份才創(chuàng)立,便宣告連續(xù)拿到了種子輪、天使輪、天使+輪融資,累計(jì)融資金額達(dá)數(shù)千萬(wàn)元;新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata也于日前宣布獲得了一筆165萬(wàn)美元規(guī)模的種子輪融資,資本市場(chǎng)對(duì)于合成數(shù)據(jù)的青睞可見(jiàn)一斑。
數(shù)據(jù)永動(dòng)機(jī)的“美夢(mèng)與陷阱”
數(shù)據(jù)永動(dòng)機(jī)的美夢(mèng)似乎正在成真,合成數(shù)據(jù)暗含的變革可能性開(kāi)始吸引越來(lái)越多人駐足和買(mǎi)單。
不單單體現(xiàn)在數(shù)據(jù)的無(wú)限生成,看好合成數(shù)據(jù)的人認(rèn)為,合成數(shù)據(jù)可以幫助解鎖各種基于語(yǔ)言的機(jī)會(huì),此前困于數(shù)據(jù)有限而無(wú)法深入研究的領(lǐng)域可以松開(kāi)鐐銬,大展拳腳了。
舉例來(lái)說(shuō),2021年年底,全球領(lǐng)先的基因測(cè)序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集;蚪M數(shù)據(jù)是世界上最復(fù)雜、多維、信息豐富的數(shù)據(jù)類(lèi)型之一,長(zhǎng)度超過(guò) 30 億個(gè)堿基對(duì),每個(gè)人獨(dú)特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風(fēng)險(xiǎn)。(雖然不是自然語(yǔ)言,但基因組序列是文本數(shù)據(jù);每個(gè)人的 DNA 序列都可以通過(guò)簡(jiǎn)單的 4 個(gè)字母“字母表”進(jìn)行編碼。)基因研究有助于解碼生命奧秘,探索人類(lèi)健康,但由于基因組數(shù)據(jù)的可用性有限,這項(xiàng)研究一直遲滯不前,很難突破,圍繞人類(lèi)基因數(shù)據(jù)的嚴(yán)格隱私法規(guī)和數(shù)據(jù)共享限制也成為極大阻礙。
而合成數(shù)據(jù)提供了一種潛在的革命性解決方案:它可以復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號(hào),同時(shí)回避這些數(shù)據(jù)隱私問(wèn)題,因?yàn)閿?shù)據(jù)是人工生成的,并不對(duì)應(yīng)于現(xiàn)實(shí)世界中的任何特性個(gè)體。
基因數(shù)據(jù)的用例只是冰山一角,從早期的計(jì)算機(jī)視覺(jué),到如今的機(jī)器人技術(shù)再到物理安全,從地理空間圖像到制造,從生物醫(yī)藥到基因研究,凡是需要“大量數(shù)據(jù)出奇跡”的領(lǐng)域,合成數(shù)據(jù)都代表著強(qiáng)大的解決方案。
而更為隱性的層面,合成數(shù)據(jù)的出現(xiàn)或?qū)?lái)數(shù)據(jù)平權(quán)的曙光,通過(guò)使高質(zhì)量的訓(xùn)練數(shù)據(jù)更容易獲得和負(fù)擔(dān)得起,合成數(shù)據(jù)將削弱專(zhuān)有數(shù)據(jù)資產(chǎn)作為持久競(jìng)爭(zhēng)優(yōu)勢(shì)的優(yōu)勢(shì)。
從科技史發(fā)展的脈絡(luò)來(lái)看,強(qiáng)者恒強(qiáng)的馬太效應(yīng)通常都是仰賴(lài)于數(shù)據(jù)的底層原料,“滾雪球般”的數(shù)據(jù)累積讓谷歌、Facebook和亞馬遜等科技巨頭始終占據(jù)著得天獨(dú)厚的優(yōu)勢(shì),而合成數(shù)據(jù)的興起或?qū)①x能全新一代的人工智能新貴,并通過(guò)降低構(gòu)建人工智能優(yōu)先產(chǎn)品的數(shù)據(jù)壁壘來(lái)掀起人工智能創(chuàng)新浪潮。
當(dāng)然,美夢(mèng)固然很美,但也有人在質(zhì)疑。
來(lái)自牛津大學(xué)、劍橋大學(xué)、倫敦帝國(guó)學(xué)院等機(jī)構(gòu)的研究人員今年5月發(fā)表論文稱(chēng),AI用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷,最終走向模型崩潰(Model Collapse),也就是,新一代模型的訓(xùn)練數(shù)據(jù)會(huì)被上一代模型的生成數(shù)據(jù)所污染,從而對(duì)現(xiàn)實(shí)世界的感知產(chǎn)生錯(cuò)誤的理解。更進(jìn)一步,這種崩潰還會(huì)引發(fā)比如基于性別、種族或其他敏感屬性的歧視問(wèn)題,尤其是如果生成 AI 隨著時(shí)間的推移學(xué)會(huì)在其響應(yīng)中只生成某個(gè)種族,而忘記其他種族的存在。
需要注意的是,模型崩潰的過(guò)程與災(zāi)難性遺忘(catastrophic forgetting)不同,模型不會(huì)忘記以前學(xué)過(guò)的數(shù)據(jù),而是開(kāi)始把模型的錯(cuò)誤想法曲解為現(xiàn)實(shí),并且還會(huì)強(qiáng)化自己對(duì)錯(cuò)誤想法的信念。
而更為預(yù)料不及的是,由此帶來(lái)的合成數(shù)據(jù)泛濫,真實(shí)數(shù)據(jù)難以尋覓,真實(shí)與虛擬的邊界消弭,人們?cè)匐y辨清自己是活在真實(shí)還是虛擬。
原文標(biāo)題 : 數(shù)據(jù)永動(dòng)機(jī)?合成數(shù)據(jù)的美夢(mèng)與陷阱

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-6.16立即報(bào)名>> 【在線(xiàn)會(huì)議】Solution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠(chǎng)展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠(chǎng)紛紛入局,百度、阿里、字節(jié)搶奪Agent話(huà)語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠(chǎng)為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 為何全球AI巨頭都在搶?zhuān)縈CP協(xié)議背后的暴富玄機(jī)大公開(kāi)!