數(shù)據(jù)永動機(jī)?合成數(shù)據(jù)的美夢與陷阱
距離數(shù)據(jù)用光還剩3年時間。
以上是研究機(jī)構(gòu)Epoch給出的一個初步估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。
數(shù)十億參數(shù)起步,以TB為單位的數(shù)據(jù)集喂養(yǎng),百模大戰(zhàn),千模大戰(zhàn)的持續(xù)上演,正在以燃盡數(shù)據(jù)為代價,當(dāng)數(shù)據(jù)荒變成直觀的倒計(jì)時時,這種迫近的危機(jī)感才開始在整個產(chǎn)業(yè)圈蔓延。
高質(zhì)量數(shù)據(jù)告急
第一個感受到數(shù)據(jù)荒危機(jī)的便是那些亟需數(shù)據(jù)的AI公司們。
繼算力缺口后,數(shù)據(jù)成為最緊俏的資源,數(shù)據(jù)采集要價也在水漲船高。自2008年以來,Reddit API一直是以免費(fèi)的方式開放給第三方,然而近期,Reddit通知開發(fā)者將從7月1日開始使用用數(shù)據(jù)接口進(jìn)行收費(fèi)。根據(jù)第三方軟件Apollo的開發(fā)者Christian Selig透露,Reddit的收費(fèi)為0.24美元/1000次API響應(yīng)。對于Apollo來說,這就相當(dāng)于200萬美元每月或2000萬美元每年的開銷。
而根據(jù)推特今年3月發(fā)布的API新政策,企業(yè)需要為抓取推文的API支付每月4萬美元至20萬美元不等的費(fèi)用,對應(yīng)可以獲得5000萬至2億條推文。根據(jù)測算,最低一個檔次的套餐約等于整體推文的0.3%。
數(shù)據(jù)變貴了,這點(diǎn)已經(jīng)成為業(yè)界心照不宣的共識,而大模型混戰(zhàn)無疑讓數(shù)據(jù)供不應(yīng)求的局面進(jìn)一步加劇。
已有的(通用)數(shù)據(jù)資源似乎已經(jīng)接近效能極限,Cohere首席執(zhí)行官Aiden Gomez表示,網(wǎng)絡(luò)上那些通用數(shù)據(jù)已不足以推動AI模型的性能發(fā)展。
的確,大模型競賽就像上了發(fā)條一樣,一旦觸發(fā),便沒有停下來的間隙,需要保證不斷的攝取營養(yǎng),當(dāng)大模型發(fā)展走向更深度,比如行業(yè)大模型,其所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費(fèi)公開的數(shù)據(jù)了,要訓(xùn)練出精度極高的的模型,需要的是行業(yè)專業(yè)知識,甚至商業(yè)機(jī)密類型的知識。
而恰恰目前全球數(shù)據(jù)供給的現(xiàn)狀,70%的數(shù)據(jù)源都僅僅停留在免費(fèi)公開數(shù)據(jù)集的層面,這與大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn),一些行業(yè)的垂類大數(shù)據(jù),比如金融、醫(yī)療、科研、行業(yè)型大數(shù)據(jù)還遠(yuǎn)未開掘,一位業(yè)內(nèi)人士透露。垂類數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,而出于數(shù)據(jù)安全合規(guī)的考慮,行業(yè)機(jī)構(gòu)愿意把核心數(shù)據(jù)拿出來開放共享的又在少數(shù)。而從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,這個數(shù)據(jù)形態(tài)演變的過程,需要經(jīng)歷數(shù)據(jù)的篩選、分級和標(biāo)注,中間附著的人力成本和硬件成本都極為不菲,初始收集的數(shù)據(jù)總量,到最后可用的數(shù)據(jù)量可能只有70%,相比于算力,數(shù)據(jù)的稀缺性更為突出。
如果說全球都難逃數(shù)據(jù)荒,那么“重災(zāi)區(qū)”更顯見于中文語料。
可能會有人說,中國有14億人口和5千余家上市公司,全社會的數(shù)據(jù)資源存量排在全球第二,應(yīng)該在數(shù)據(jù)上是長板,但數(shù)據(jù)表明,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料的占比僅為1.3%,一些主流數(shù)據(jù)集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中文數(shù)據(jù)也只占其4.8%。“大而不強(qiáng)”是中國數(shù)據(jù)市場比較刺眼的現(xiàn)實(shí),在國內(nèi)來看,據(jù)統(tǒng)計(jì),數(shù)據(jù)資源80%集中在公共和政府事業(yè)單位。而據(jù)發(fā)改委官方披露,我國政府?dāng)?shù)據(jù)資源占全國數(shù)據(jù)資源的比重超過3/4,但開放規(guī)模不足美國的10%,個人和企業(yè)可以利用的規(guī)模更是不及美國的7%,開放程度遠(yuǎn)低于美國。
流于“形式開放”正成為我國公共數(shù)據(jù)開放的癥結(jié),據(jù)公開資料統(tǒng)計(jì),我國各級地方政務(wù)數(shù)據(jù)開放網(wǎng)站開放的數(shù)據(jù)普遍周期較長,地方平臺約有46%的平臺沒有更新數(shù)據(jù),只有8.5%的地方平臺連續(xù)兩年發(fā)布了新的數(shù)據(jù)集。
開放程度低是一大掣肘,數(shù)據(jù)質(zhì)量差才是卡脖子的首要因素,目前的中文公開數(shù)據(jù)集不是沒有,近2個月來,國內(nèi)不少團(tuán)隊(duì)先后開源了中文數(shù)據(jù)集,除通用數(shù)據(jù)集外,針對編程、醫(yī)療等垂域也有專門的開源中文數(shù)據(jù)集發(fā)布。開源的還包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數(shù)量和質(zhì)量,和英文數(shù)據(jù)集相比可謂九牛一毛。并且其中相當(dāng)一部分的內(nèi)容已經(jīng)非常陳舊。
數(shù)據(jù)荒有救了?合成數(shù)據(jù)成“新賽道“
數(shù)據(jù)的捉襟見肘讓大模型的進(jìn)化難以為繼,高質(zhì)量數(shù)據(jù)從哪里來?
舊路難循,便開始造新路。7月25日,深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”,抱團(tuán)聚力。參與公司不僅有聯(lián)通、電信兩大運(yùn)營商以及騰訊云,還有多家A股公司,合力匯集論文、政策、報(bào)告、標(biāo)準(zhǔn)、法律、代碼、古籍、中醫(yī)藥、基因及蛋白質(zhì)結(jié)構(gòu)等多模態(tài)的訓(xùn)練數(shù)據(jù),為數(shù)據(jù)交易增加合成數(shù)據(jù)、標(biāo)注數(shù)據(jù)、模型參數(shù)等新專區(qū)和新品類,合成數(shù)據(jù)正成為生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路。
何謂合成數(shù)據(jù)?合成數(shù)據(jù)即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù),來替代現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù),來保證真實(shí)數(shù)據(jù)的安全,比如用戶小A有10個特點(diǎn)、用戶小B有10個特點(diǎn)、用戶小C有10個特點(diǎn),合成數(shù)據(jù)將這30個特點(diǎn)進(jìn)行隨機(jī)打散匹配,形成3個全新的數(shù)據(jù)個體,這并不對準(zhǔn)真實(shí)世界的任何一個實(shí)體,但卻有訓(xùn)練價值,作為真實(shí)數(shù)據(jù)的“平替”,合成數(shù)據(jù)高效、廉價并且不涉及個人隱私和公共利益,且可以兼顧數(shù)據(jù)多樣性和公平性,理論上可以生成所有數(shù)據(jù),包括現(xiàn)實(shí)世界中難以采集或幾乎不存在于現(xiàn)實(shí)中的極端案例,最大化地提高模型的精準(zhǔn)度,糾正歷史數(shù)據(jù)中的偏見、消除算法歧視,優(yōu)越性不言而喻。
對于有些行業(yè)而言,合成數(shù)據(jù)具有天然的應(yīng)用適配度,比如自動駕駛,讓汽車通過實(shí)際道路測試來窮盡其在道路上可能遇到的每一個場景是不現(xiàn)實(shí)的,故大量的合成數(shù)據(jù)可以用于模擬各種駕駛場景,從而提高算法的魯棒性。在這種情況下,合成數(shù)據(jù)可能占據(jù)訓(xùn)練數(shù)據(jù)的很大一部分,甚至高達(dá)90%以上。
而對于數(shù)據(jù)敏感的金融和生物醫(yī)藥領(lǐng)域,在不提供敏感的歷史交易信息的前提下,訓(xùn)練量化交易模型,從而提升獲利能力;而在藥物研發(fā)工作上,通過合成數(shù)據(jù)集,可以在不泄露患者隱私信息的條件下訓(xùn)練相關(guān)模型,加速新藥研發(fā)過程,發(fā)現(xiàn)潛在的治療方法,提高醫(yī)藥領(lǐng)域的效率和準(zhǔn)確性。
更重要的一點(diǎn)是,一直以來,數(shù)據(jù)標(biāo)記都被視為現(xiàn)代機(jī)器學(xué)習(xí)中一個笨拙、不雅、成本高昂的部分,而合成數(shù)據(jù)不需要手動標(biāo)記,自動帶有完美的數(shù)據(jù)標(biāo)簽,這一點(diǎn)已經(jīng)足夠迷人。
巨大的剛需和高景氣度面前,合成數(shù)據(jù)不捧自火,國外的主流科技公司已經(jīng)在紛紛部署,比如英偉達(dá)的元宇宙平臺Omniverse擁有合成數(shù)據(jù)能力omniverse replicator;亞馬遜使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題;微軟的Azure云服務(wù)推出了airSIM平臺,可以創(chuàng)建高保真的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動的自主飛行器,微軟、OpenAI、Cohere等公司都已經(jīng)開始測試使用合成數(shù)據(jù)來訓(xùn)練AI模型...
其中也少不了自動駕駛汽車廠商們,早有布局,比如Waymo、Cruise、Aurora、Zoox等,都在合成數(shù)據(jù)和模擬方面進(jìn)行了大量投資,并將其作為其技術(shù)堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓(xùn)練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實(shí)世界收集的駕駛數(shù)據(jù)僅為 300 萬英里)。到 2019 年,這一數(shù)字已達(dá)到100 億英里。
而國內(nèi),騰訊、阿里巴巴、百度走在前列。騰訊自動駕駛實(shí)驗(yàn)室開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標(biāo)注的各種交通場景數(shù)據(jù);阿里巴巴自研的語音合成技術(shù)KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上;百度也發(fā)布了多個數(shù)據(jù)合成與半自動標(biāo)注工具。
值得關(guān)注的是,合成數(shù)據(jù)已經(jīng)自成賽道,一批瞄準(zhǔn)合成數(shù)據(jù)為主攻方向的數(shù)據(jù)新勢力集中涌現(xiàn),出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準(zhǔn)了自動駕駛汽車終端市場。其中包括 Applied Intuition(2022年估值180億人民幣,入選全球獨(dú)角獸榜)、Parallel Domain 和 Cognata 等公司。
而近段時間以來,圍繞為企業(yè)落地AI提供合成數(shù)據(jù)服務(wù)的初創(chuàng)企業(yè)也開始瘋狂刷屏,國內(nèi)合成數(shù)據(jù)公司光輪智能于今年1月份才創(chuàng)立,便宣告連續(xù)拿到了種子輪、天使輪、天使+輪融資,累計(jì)融資金額達(dá)數(shù)千萬元;新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata也于日前宣布獲得了一筆165萬美元規(guī)模的種子輪融資,資本市場對于合成數(shù)據(jù)的青睞可見一斑。
數(shù)據(jù)永動機(jī)的“美夢與陷阱”
數(shù)據(jù)永動機(jī)的美夢似乎正在成真,合成數(shù)據(jù)暗含的變革可能性開始吸引越來越多人駐足和買單。
不單單體現(xiàn)在數(shù)據(jù)的無限生成,看好合成數(shù)據(jù)的人認(rèn)為,合成數(shù)據(jù)可以幫助解鎖各種基于語言的機(jī)會,此前困于數(shù)據(jù)有限而無法深入研究的領(lǐng)域可以松開鐐銬,大展拳腳了。
舉例來說,2021年年底,全球領(lǐng)先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集;蚪M數(shù)據(jù)是世界上最復(fù)雜、多維、信息豐富的數(shù)據(jù)類型之一,長度超過 30 億個堿基對,每個人獨(dú)特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風(fēng)險(xiǎn)。(雖然不是自然語言,但基因組序列是文本數(shù)據(jù);每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進(jìn)行編碼。)基因研究有助于解碼生命奧秘,探索人類健康,但由于基因組數(shù)據(jù)的可用性有限,這項(xiàng)研究一直遲滯不前,很難突破,圍繞人類基因數(shù)據(jù)的嚴(yán)格隱私法規(guī)和數(shù)據(jù)共享限制也成為極大阻礙。
而合成數(shù)據(jù)提供了一種潛在的革命性解決方案:它可以復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號,同時回避這些數(shù)據(jù)隱私問題,因?yàn)閿?shù)據(jù)是人工生成的,并不對應(yīng)于現(xiàn)實(shí)世界中的任何特性個體。
基因數(shù)據(jù)的用例只是冰山一角,從早期的計(jì)算機(jī)視覺,到如今的機(jī)器人技術(shù)再到物理安全,從地理空間圖像到制造,從生物醫(yī)藥到基因研究,凡是需要“大量數(shù)據(jù)出奇跡”的領(lǐng)域,合成數(shù)據(jù)都代表著強(qiáng)大的解決方案。
而更為隱性的層面,合成數(shù)據(jù)的出現(xiàn)或?qū)頂?shù)據(jù)平權(quán)的曙光,通過使高質(zhì)量的訓(xùn)練數(shù)據(jù)更容易獲得和負(fù)擔(dān)得起,合成數(shù)據(jù)將削弱專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的優(yōu)勢。
從科技史發(fā)展的脈絡(luò)來看,強(qiáng)者恒強(qiáng)的馬太效應(yīng)通常都是仰賴于數(shù)據(jù)的底層原料,“滾雪球般”的數(shù)據(jù)累積讓谷歌、Facebook和亞馬遜等科技巨頭始終占據(jù)著得天獨(dú)厚的優(yōu)勢,而合成數(shù)據(jù)的興起或?qū)①x能全新一代的人工智能新貴,并通過降低構(gòu)建人工智能優(yōu)先產(chǎn)品的數(shù)據(jù)壁壘來掀起人工智能創(chuàng)新浪潮。
當(dāng)然,美夢固然很美,但也有人在質(zhì)疑。
來自牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院等機(jī)構(gòu)的研究人員今年5月發(fā)表論文稱,AI用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練,會導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷,最終走向模型崩潰(Model Collapse),也就是,新一代模型的訓(xùn)練數(shù)據(jù)會被上一代模型的生成數(shù)據(jù)所污染,從而對現(xiàn)實(shí)世界的感知產(chǎn)生錯誤的理解。更進(jìn)一步,這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題,尤其是如果生成 AI 隨著時間的推移學(xué)會在其響應(yīng)中只生成某個種族,而忘記其他種族的存在。
需要注意的是,模型崩潰的過程與災(zāi)難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學(xué)過的數(shù)據(jù),而是開始把模型的錯誤想法曲解為現(xiàn)實(shí),并且還會強(qiáng)化自己對錯誤想法的信念。
而更為預(yù)料不及的是,由此帶來的合成數(shù)據(jù)泛濫,真實(shí)數(shù)據(jù)難以尋覓,真實(shí)與虛擬的邊界消弭,人們再難辨清自己是活在真實(shí)還是虛擬。
原文標(biāo)題 : 數(shù)據(jù)永動機(jī)?合成數(shù)據(jù)的美夢與陷阱

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?