數據永動機?合成數據的美夢與陷阱
距離數據用光還剩3年時間。
以上是研究機構Epoch給出的一個初步估計,機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”,低質量的語言數據和圖像數據的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。
數十億參數起步,以TB為單位的數據集喂養(yǎng),百模大戰(zhàn),千模大戰(zhàn)的持續(xù)上演,正在以燃盡數據為代價,當數據荒變成直觀的倒計時時,這種迫近的危機感才開始在整個產業(yè)圈蔓延。
高質量數據告急
第一個感受到數據荒危機的便是那些亟需數據的AI公司們。
繼算力缺口后,數據成為最緊俏的資源,數據采集要價也在水漲船高。自2008年以來,Reddit API一直是以免費的方式開放給第三方,然而近期,Reddit通知開發(fā)者將從7月1日開始使用用數據接口進行收費。根據第三方軟件Apollo的開發(fā)者Christian Selig透露,Reddit的收費為0.24美元/1000次API響應。對于Apollo來說,這就相當于200萬美元每月或2000萬美元每年的開銷。
而根據推特今年3月發(fā)布的API新政策,企業(yè)需要為抓取推文的API支付每月4萬美元至20萬美元不等的費用,對應可以獲得5000萬至2億條推文。根據測算,最低一個檔次的套餐約等于整體推文的0.3%。
數據變貴了,這點已經成為業(yè)界心照不宣的共識,而大模型混戰(zhàn)無疑讓數據供不應求的局面進一步加劇。
已有的(通用)數據資源似乎已經接近效能極限,Cohere首席執(zhí)行官Aiden Gomez表示,網絡上那些通用數據已不足以推動AI模型的性能發(fā)展。
的確,大模型競賽就像上了發(fā)條一樣,一旦觸發(fā),便沒有停下來的間隙,需要保證不斷的攝取營養(yǎng),當大模型發(fā)展走向更深度,比如行業(yè)大模型,其所需的數據就不是互聯(lián)網免費公開的數據了,要訓練出精度極高的的模型,需要的是行業(yè)專業(yè)知識,甚至商業(yè)機密類型的知識。
而恰恰目前全球數據供給的現(xiàn)狀,70%的數據源都僅僅停留在免費公開數據集的層面,這與大模型成長所需的理想數據環(huán)境相差甚遠,一些行業(yè)的垂類大數據,比如金融、醫(yī)療、科研、行業(yè)型大數據還遠未開掘,一位業(yè)內人士透露。垂類數據通常由政府和行業(yè)機構掌握,而出于數據安全合規(guī)的考慮,行業(yè)機構愿意把核心數據拿出來開放共享的又在少數。而從原生的數據資源到數據資產化再到形成數據產品,這個數據形態(tài)演變的過程,需要經歷數據的篩選、分級和標注,中間附著的人力成本和硬件成本都極為不菲,初始收集的數據總量,到最后可用的數據量可能只有70%,相比于算力,數據的稀缺性更為突出。
如果說全球都難逃數據荒,那么“重災區(qū)”更顯見于中文語料。
可能會有人說,中國有14億人口和5千余家上市公司,全社會的數據資源存量排在全球第二,應該在數據上是長板,但數據表明,全球通用的50億大模型數據訓練集里,中文語料的占比僅為1.3%,一些主流數據集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中文數據也只占其4.8%。“大而不強”是中國數據市場比較刺眼的現(xiàn)實,在國內來看,據統(tǒng)計,數據資源80%集中在公共和政府事業(yè)單位。而據發(fā)改委官方披露,我國政府數據資源占全國數據資源的比重超過3/4,但開放規(guī)模不足美國的10%,個人和企業(yè)可以利用的規(guī)模更是不及美國的7%,開放程度遠低于美國。
流于“形式開放”正成為我國公共數據開放的癥結,據公開資料統(tǒng)計,我國各級地方政務數據開放網站開放的數據普遍周期較長,地方平臺約有46%的平臺沒有更新數據,只有8.5%的地方平臺連續(xù)兩年發(fā)布了新的數據集。
開放程度低是一大掣肘,數據質量差才是卡脖子的首要因素,目前的中文公開數據集不是沒有,近2個月來,國內不少團隊先后開源了中文數據集,除通用數據集外,針對編程、醫(yī)療等垂域也有專門的開源中文數據集發(fā)布。開源的還包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數量和質量,和英文數據集相比可謂九牛一毛。并且其中相當一部分的內容已經非常陳舊。
數據荒有救了?合成數據成“新賽道“
數據的捉襟見肘讓大模型的進化難以為繼,高質量數據從哪里來?
舊路難循,便開始造新路。7月25日,深圳數交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”,抱團聚力。參與公司不僅有聯(lián)通、電信兩大運營商以及騰訊云,還有多家A股公司,合力匯集論文、政策、報告、標準、法律、代碼、古籍、中醫(yī)藥、基因及蛋白質結構等多模態(tài)的訓練數據,為數據交易增加合成數據、標注數據、模型參數等新專區(qū)和新品類,合成數據正成為生成和豐富AI訓練數據的第二條路。
何謂合成數據?合成數據即由計算機人工生產的數據,來替代現(xiàn)實世界中采集的真實數據,來保證真實數據的安全,比如用戶小A有10個特點、用戶小B有10個特點、用戶小C有10個特點,合成數據將這30個特點進行隨機打散匹配,形成3個全新的數據個體,這并不對準真實世界的任何一個實體,但卻有訓練價值,作為真實數據的“平替”,合成數據高效、廉價并且不涉及個人隱私和公共利益,且可以兼顧數據多樣性和公平性,理論上可以生成所有數據,包括現(xiàn)實世界中難以采集或幾乎不存在于現(xiàn)實中的極端案例,最大化地提高模型的精準度,糾正歷史數據中的偏見、消除算法歧視,優(yōu)越性不言而喻。
對于有些行業(yè)而言,合成數據具有天然的應用適配度,比如自動駕駛,讓汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現(xiàn)實的,故大量的合成數據可以用于模擬各種駕駛場景,從而提高算法的魯棒性。在這種情況下,合成數據可能占據訓練數據的很大一部分,甚至高達90%以上。
而對于數據敏感的金融和生物醫(yī)藥領域,在不提供敏感的歷史交易信息的前提下,訓練量化交易模型,從而提升獲利能力;而在藥物研發(fā)工作上,通過合成數據集,可以在不泄露患者隱私信息的條件下訓練相關模型,加速新藥研發(fā)過程,發(fā)現(xiàn)潛在的治療方法,提高醫(yī)藥領域的效率和準確性。
更重要的一點是,一直以來,數據標記都被視為現(xiàn)代機器學習中一個笨拙、不雅、成本高昂的部分,而合成數據不需要手動標記,自動帶有完美的數據標簽,這一點已經足夠迷人。
巨大的剛需和高景氣度面前,合成數據不捧自火,國外的主流科技公司已經在紛紛部署,比如英偉達的元宇宙平臺Omniverse擁有合成數據能力omniverse replicator;亞馬遜使用合成數據來訓練、調試其虛擬助手Alexa,以避免用戶隱私問題;微軟的Azure云服務推出了airSIM平臺,可以創(chuàng)建高保真的3D虛擬環(huán)境來訓練、測試AI驅動的自主飛行器,微軟、OpenAI、Cohere等公司都已經開始測試使用合成數據來訓練AI模型...
其中也少不了自動駕駛汽車廠商們,早有布局,比如Waymo、Cruise、Aurora、Zoox等,都在合成數據和模擬方面進行了大量投資,并將其作為其技術堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數據來訓練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實世界收集的駕駛數據僅為 300 萬英里)。到 2019 年,這一數字已達到100 億英里。
而國內,騰訊、阿里巴巴、百度走在前列。騰訊自動駕駛實驗室開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標注的各種交通場景數據;阿里巴巴自研的語音合成技術KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上;百度也發(fā)布了多個數據合成與半自動標注工具。
值得關注的是,合成數據已經自成賽道,一批瞄準合成數據為主攻方向的數據新勢力集中涌現(xiàn),出現(xiàn)的第一批合成數據初創(chuàng)公司瞄準了自動駕駛汽車終端市場。其中包括 Applied Intuition(2022年估值180億人民幣,入選全球獨角獸榜)、Parallel Domain 和 Cognata 等公司。
而近段時間以來,圍繞為企業(yè)落地AI提供合成數據服務的初創(chuàng)企業(yè)也開始瘋狂刷屏,國內合成數據公司光輪智能于今年1月份才創(chuàng)立,便宣告連續(xù)拿到了種子輪、天使輪、天使+輪融資,累計融資金額達數千萬元;新加坡合成數據初創(chuàng)公司Betterdata也于日前宣布獲得了一筆165萬美元規(guī)模的種子輪融資,資本市場對于合成數據的青睞可見一斑。
數據永動機的“美夢與陷阱”
數據永動機的美夢似乎正在成真,合成數據暗含的變革可能性開始吸引越來越多人駐足和買單。
不單單體現(xiàn)在數據的無限生成,看好合成數據的人認為,合成數據可以幫助解鎖各種基于語言的機會,此前困于數據有限而無法深入研究的領域可以松開鐐銬,大展拳腳了。
舉例來說,2021年年底,全球領先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數據集;蚪M數據是世界上最復雜、多維、信息豐富的數據類型之一,長度超過 30 億個堿基對,每個人獨特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風險。(雖然不是自然語言,但基因組序列是文本數據;每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進行編碼。)基因研究有助于解碼生命奧秘,探索人類健康,但由于基因組數據的可用性有限,這項研究一直遲滯不前,很難突破,圍繞人類基因數據的嚴格隱私法規(guī)和數據共享限制也成為極大阻礙。
而合成數據提供了一種潛在的革命性解決方案:它可以復制真實基因組數據集的特征和信號,同時回避這些數據隱私問題,因為數據是人工生成的,并不對應于現(xiàn)實世界中的任何特性個體。
基因數據的用例只是冰山一角,從早期的計算機視覺,到如今的機器人技術再到物理安全,從地理空間圖像到制造,從生物醫(yī)藥到基因研究,凡是需要“大量數據出奇跡”的領域,合成數據都代表著強大的解決方案。
而更為隱性的層面,合成數據的出現(xiàn)或將帶來數據平權的曙光,通過使高質量的訓練數據更容易獲得和負擔得起,合成數據將削弱專有數據資產作為持久競爭優(yōu)勢的優(yōu)勢。
從科技史發(fā)展的脈絡來看,強者恒強的馬太效應通常都是仰賴于數據的底層原料,“滾雪球般”的數據累積讓谷歌、Facebook和亞馬遜等科技巨頭始終占據著得天獨厚的優(yōu)勢,而合成數據的興起或將賦能全新一代的人工智能新貴,并通過降低構建人工智能優(yōu)先產品的數據壁壘來掀起人工智能創(chuàng)新浪潮。
當然,美夢固然很美,但也有人在質疑。
來自牛津大學、劍橋大學、倫敦帝國學院等機構的研究人員今年5月發(fā)表論文稱,AI用AI生成的數據進行訓練,會導致AI模型存在不可逆轉的缺陷,最終走向模型崩潰(Model Collapse),也就是,新一代模型的訓練數據會被上一代模型的生成數據所污染,從而對現(xiàn)實世界的感知產生錯誤的理解。更進一步,這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題,尤其是如果生成 AI 隨著時間的推移學會在其響應中只生成某個種族,而忘記其他種族的存在。
需要注意的是,模型崩潰的過程與災難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學過的數據,而是開始把模型的錯誤想法曲解為現(xiàn)實,并且還會強化自己對錯誤想法的信念。
而更為預料不及的是,由此帶來的合成數據泛濫,真實數據難以尋覓,真實與虛擬的邊界消弭,人們再難辨清自己是活在真實還是虛擬。
原文標題 : 數據永動機?合成數據的美夢與陷阱

請輸入評論內容...
請輸入評論/評論長度6~500個字