從星火看大模型中場:祛魅與拷問
撰文 | 吳坤諺
編輯 | 王 潘
厄爾尼諾指數(shù)快速增加,史上最熱夏天即將到來,但比氣候更“火熱”的是科技互聯(lián)網(wǎng)行業(yè)的大模型淘金潮。
今年年初,各方大佬下場創(chuàng)業(yè)打響了淘金熱的第一槍,緊接著的是3月開始的大廠扎堆布局,連高校與國家隊都爭取跑步入場,淘金熱愈演愈烈。5月6日,我們又迎來了一位玩家入場,科大訊飛發(fā)布旗下認知大模型星火。
興許是大眾與業(yè)界對于密集發(fā)布的大模型有些“脫敏”,訊飛星火發(fā)布的消息未能引起行業(yè)的熱烈反響。如今的局面其實并不意外,因為商業(yè)社會的發(fā)展總是需要新的故事。早在今年2月,ChatGPT的出圈就為AI板塊的科大訊飛狠狠地拉了一波股價,GPT概念股至今仍廣為投資者所關(guān)注。
據(jù)了解,“星火認知大模型”是純文本模型,僅支持文本內(nèi)容的輸入和輸出,多模態(tài)交互需要自升級產(chǎn)品星火Pro獲取。而通過TTS(從文本到語音)實現(xiàn)語音提問功能可以說是意外之喜,也是科大訊飛有別于一眾大廠的特點之一。
此外,本次發(fā)布會與此前各家大模型發(fā)布會最大的不同在于,科大訊飛CEO劉慶峰為大家“畫了一張帶有時間線的大餅”:6月9日前,訊飛星火大模型將突破開放式問答,實現(xiàn)對話能力和數(shù)學能力的再升級;8月15日前代碼能力會上大臺階,多模態(tài)交互能力再升級,在10月24日前,星火大模型將對標ChatGPT,在中文能力上超過ChatGPT,在英文能力上與ChatGPT相當。
這是一個管理預期的故事。
回顧近十年的商業(yè)新故事,其中既有智能手機、新能源、云計算等光環(huán)(aura)加身的神話,也不乏元宇宙、NFT這類被祛魅后步入暗夜的案例。每一個故事在開始之時都宣稱將開啟一個新時代、新紀元,宏大的敘事為其披上克里斯瑪?shù)耐庖,等待其進入商業(yè)場景后被市場驗證。
反觀科大訊飛,大模型是它不得不抓住的光環(huán)。
大模型是AI賽道重新洗牌的機會已是共識。而且自科大訊飛近年來的業(yè)務發(fā)展路線看,其引以為傲的語音識別賽道受困于創(chuàng)新者窘境,視覺領(lǐng)域也有AI四小龍后來居上,嘗試拓展的智慧醫(yī)療、智慧金融業(yè)務的表現(xiàn)也只是不夠出彩,在2022年整體營收中占比均不足3%。
回歸大模型本身,隨著迄今為止人類歷史上用戶增長速度最快的ChatGPT不得不關(guān)閉付費渠道,一場屬于科技互聯(lián)網(wǎng)的“西進運動”儼然開始進入中場。
現(xiàn)在我們離GPT還有多遠?
LLM(大語言模型)、Token(文本單位)、參數(shù),為4月內(nèi)幾乎未曾間斷的大模型發(fā)布會所吸引的VC們一面接收這場寶貴的知識爆炸,一面搖身一變成為AI領(lǐng)域的深耕者。按本山大叔的話來說,就是“聰明的智商又占領(lǐng)高地了”。
先行的創(chuàng)業(yè)者們早早通過自身過硬的攢局能力拉來了數(shù)輪融資,后來的創(chuàng)業(yè)者們也在抓緊忽悠風投上車,勇立時代潮頭一起吃肉喝湯。
只是直到目前,無論是最早發(fā)布的大模型文心一言還是后續(xù)開放測試或在發(fā)布會上實機演示的大模型都距離ChatGPT存在一定距離,包括5月6日發(fā)布的科大訊飛星火。
星火發(fā)布會上,劉慶峰現(xiàn)場演示星火的能力并提出了評測大模型的覆蓋7大類481個細分任務類型。盡管真機實測勇氣可嘉,測試內(nèi)容出錯較少且響應快速,整體的情感理解與邏輯線也都在線,但整體測試類別還是以簡單的文字生成為主。這一塊基本屬于科大訊飛的傳統(tǒng)藝能,并不能看出自去年12月起至今近6個月的數(shù)據(jù)投喂成果。
換句話說,目前的生成內(nèi)容還無法看出星火達到了智能涌現(xiàn)的標準。不過考慮到科大訊飛的數(shù)據(jù)要素來源主要在于教育、醫(yī)療、汽車等細分領(lǐng)域,目前的表現(xiàn)也就不難理解了。
本次發(fā)布會上科大訊飛還展示了星火搭載下的學習機、虛擬人、汽車座艙域智能辦公演示,這既是亮點也是槽點。亮點在于星火大模型在誕生之初就已經(jīng)找到了明確的商業(yè)化落地路徑,其中教育硬件與辦公硬件也是科大訊飛過去兩年內(nèi)的營收主力;槽點在于這幾條路徑相對于大模型而言顯得過于狹窄,可能是星火在測試時所表現(xiàn)出的能力還尚未達到賦能千行百業(yè)的水平。
不過,學霸未嘗就是未來混得最好的。在大模型競爭劇烈的當下,率先占領(lǐng)垂直領(lǐng)域應用的高地并進入自我造血反哺大模型訓練的良性循環(huán),未嘗不是一條可行的路徑。
更值得注意的是,劉慶峰在發(fā)布會結(jié)束后透露,星火大模型的算力硬件主要由華為提供,當前并未受到限制。
由此我們也不難看出,一是自身是否有算力儲備在大模型訓練中也許沒那么重要,尤其是并不是所有人都將大模型定位于“通用”級別的時候。相反,數(shù)據(jù)要素的重要性更加凸顯,這在當初百度、阿里等坐擁多領(lǐng)域高質(zhì)量語料的頭部大廠發(fā)布大模型時尚不明顯,如今科大訊飛在教育領(lǐng)域的演示成果與泛領(lǐng)域演示成果的鮮明對比足以說明數(shù)據(jù)的重要性。
二是“送水人”式的“技術(shù)商人”路徑在大模型井噴的當下切實可行。一方面送水人可以通過租售算力甚至訓練方法,在獲利的同時解決算力冗余,另一方面收水人也可以節(jié)約大模型訓練的成本,杜絕內(nèi)卷和重復基礎(chǔ)設施建設,讓大模型相對不再那么“重資產(chǎn)”。
在劉慶峰的規(guī)劃中,星火將在10月24日達到中文能力超越ChatGPT,英文語料能力相當。且不論對標的是GPT3.5還是GPT4,我們不妨以此時間為節(jié)點,到時候再審視國內(nèi)大模型與OpenAI的差距,是越來越小還是越來越大。
祛魅大模型
訊飛星火的發(fā)布從一方面也可以看做是從李開復理解的AI 1.0演進為AI 2.0,是從NPL(自然語言處理)、CV(計算機視覺)到海量數(shù)據(jù)喂養(yǎng)下具備跨領(lǐng)域知識與智能交互能力的大模型。這是在李開復萬字演講中廣為流傳的"AI 2.0"范式。
有能力者做通用大模型,稍有欠缺者如科大訊飛,也要根據(jù)自有業(yè)務線如醫(yī)療、教育等場景做規(guī)模稍小的大模型。這是一個足夠宏大的敘事,尤其是在國內(nèi)多位大佬呼吁將所有應用接入大模型重做一遍的話術(shù),充滿了即刻為一項技術(shù)突破迅速找到場景進行商業(yè)化落地的渴望。
如今的火熱場景我們并不陌生,近年來,我們?yōu)榱吮阌趥鞑ヅc理解,往往會以序列號化的話術(shù)來形容技術(shù)范式的迭代演進。意義建構(gòu)理論的學者認為,這是將信息的尋求與使用視作一種溝通實踐模型,幫助人進行信息接收的做法。
從互聯(lián)網(wǎng)泡沫后提出的Web1.0和Web2.0到通信領(lǐng)域的4G和5G,以及AI領(lǐng)域,序列號給人以最直白的觀感,為我們帶來無限的想象空間,這個視角下的技術(shù)可以在草蛇灰線之中無限升維演進。越是這樣帶有技術(shù)革命色彩的故事,越是能吸引關(guān)注與投資,越具備商業(yè)化落地的可能性。
只是能否落地卻是未知數(shù),就像大模型涌現(xiàn)現(xiàn)象的發(fā)生概率只有0%和100%。
在資深機器學習與應用開發(fā)者楊軍看來,市場上的“百模大戰(zhàn)”與投資圈的狂熱是在巨量資源投入后,廣譜性質(zhì)的壓強效應所致,但是在這之中不可避免泡沫的存在。“我不太認可在介紹ChatGPT相關(guān)技術(shù)時引入的春秋筆法或過于PR的味道,總覺得這會把一個原本正常該由技術(shù)驅(qū)動的事物的演進節(jié)奏變得混亂了。關(guān)鍵的技術(shù)需要回歸到客觀層面理解,才更有利于這個方向的健康發(fā)展。”
春秋筆法對新生事物的揠苗助長在AIGC前一輪Web3風口中隨處可見,尤其是結(jié)合了VR、AR后誕生的元宇宙賽道?萍蓟ヂ(lián)網(wǎng)從業(yè)者必須銘記的案例是Facebook更名Meta,梭哈元宇宙后的窘境。反觀國內(nèi),一直以來商業(yè)化都是我們的強項,反之也遭到不少缺乏研發(fā)耐心、忽略底層技術(shù)的詬病。
楊軍透露:“我知道的一些這個行業(yè)里比較資深的模型從業(yè)人士,似乎很多都因為背負了投資方的壓力,更多考慮的是商業(yè)變現(xiàn),而不是底層技術(shù)的創(chuàng)新和突破。”
在商業(yè)化變現(xiàn)前,大模型需要填滿的洞有多深?
由英偉達給出的GPT3訓練數(shù)據(jù),參數(shù)規(guī)模為1750億,訓練語料為30億 tokens,那么訓練一個周期需要26天,采用租賃方式以8卡A100訓練的成本超256萬美元/月,即使忽略人力成本,硬件成本最低也需要大約2億人民幣一年。楊軍稱,這已經(jīng)是很保守的估計,系統(tǒng)故障、策略調(diào)整等因素也未曾考慮,人力成本更是在技術(shù)創(chuàng)新領(lǐng)域的大頭,如果希望提高效率,以并行方式實驗探索,那么硬件成本還需追加一倍。
5年時間,25~30億不計回報的總投入,這是客觀技術(shù)視角下做好一個GPT4前兩代的大模型所需要的準備。這筆研發(fā)投入已經(jīng)接近于半導體了。
楊軍對此憂慮頗多,尤其是在風投方面。“在我有限的閱歷里,看到了不少風投一開始說支持情懷,隨著時間推移,會對變現(xiàn)和尋求接盤退出越來越饑渴,最終以各種方式干預到項目執(zhí)行層面。不確定性較強的技術(shù)攻關(guān)遭遇的問題,需要行業(yè)層面來克服”。
在技術(shù)革命后的第一次格局重構(gòu)中,狂熱者往往被浪潮無情裹挾,重重拍在淺灘上。好比去年吸收了數(shù)千億美元的Web3,其大本營新加坡如今已有不少從業(yè)者租不起房,吃不起飯。
我們對大模型的暢想究竟是像APUS李濤所言“爭奪下一代操作系統(tǒng)的話語權(quán)”,還是針對某個具體場景和領(lǐng)域的賦能,亦或是在浪潮之中尋求資金、博取熱度,無論哪種都需要讓大模型褪去克里斯瑪,客觀地看待與探求。
大模型也可以小而美
在眾人一擁而上的時候,相對冷清的路徑反而更有可能成功。
比如在星火上被驗證的“送水人”路徑,除華為外,字節(jié)旗下火山引擎、騰訊云等玩家已在4月這個節(jié)點對外明確了自身“送水人”的角色,通過提供算法優(yōu)化、算力、數(shù)據(jù)飛輪等技術(shù)棧服務來做淘金熱中的服務商。路徑明晰競對少的同時還可以一定程度上“分攤”大模型的訓練成本。
這條商業(yè)路徑早在淘金運動中便已驗證,但成功故事的背后是淘金運動的“內(nèi)卷”特性,才會誕生服務的需求空間,同時“送水人”還需要在這種上游配套式或衍生周邊式服務中占據(jù)壟斷地位。“送水人”亞默爾原本只是平平無奇的淘金者之一,直到他第一時間抓住了淘金者對水的需求并通過開挖水渠的方式打造了一個專屬于他自己的飲用水生產(chǎn)線。
在如今的大模型中局,時間問題無需考慮,也不存在有誰能在某項服務中能占據(jù)壟斷地位。那么討論的重點便在于其提供的服務。
大模型的服務需求則可以用AI三要素來概括,分別是算力、算法與數(shù)據(jù),其中算力是相對最缺乏競爭力的領(lǐng)域。因為算力在淘金者的視角下僅僅只是成本,而在送水人的視角下卻是商品,單純提供算力難免會陷入價格戰(zhàn)的怪圈,反過來掣肘自己的大模型訓練。
算法與數(shù)據(jù)則與此相反,兩者均可以提高大模型的訓練效率,甚至直接影響訓練成果。只是長遠看來,這兩項服務的前景也不甚樂觀。
算法方面,OpenAI就是最好的例子,被開發(fā)者戲稱為“CloseAI”的原因之一便是其堅持閉源。大模型訓練中的策略、算法是可以作為企業(yè)護城河的核心資產(chǎn),“送水人”開放給外界使用的程度將直接關(guān)聯(lián)自家大模型的競爭強度,數(shù)據(jù)方面也是如此。反之,購買大模型服務的企業(yè)也會要求算法與數(shù)據(jù)的安全,爭取在“安全線”之下有限的互幫互助。
目前看來,“送水人”們除非退出通用大模型的競爭,否則送水的動作也很可能只是在成本控制上的錦上添花,真正的“送水人”還得是英偉達。這也意味著,我們需要另尋更切實的路徑。
日前,OpenAI關(guān)閉付費渠道已在業(yè)內(nèi)引起不小的討論,最有可能的原因是GPT4在接入微軟全棧應用后算力吃緊,只能暫時放棄C端增長來穩(wěn)住大金主。而OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman更是公開表示OpenAI已接近LLM的極限,認為LLM的規(guī)模不再是衡量模型質(zhì)量的重要指標,未來將有更多的方式來提升模型的能力和效用。
換句話說,大模型中場之際,OpenAI在否決了一昧追求規(guī)模的路徑同時為行業(yè)指出了大模型的迭代新路,即通過優(yōu)化訓練策略、全局調(diào)度以減少投入成本,同時將笨重的大模型轉(zhuǎn)向小而美的方向發(fā)展。
楊軍對此頗有研究,并對此介紹了部分海外已經(jīng)開始的創(chuàng)新案例。
關(guān)注系統(tǒng)優(yōu)化并結(jié)合模型訓練策略進行全鏈路訓練優(yōu)化的公司MosaicML提出,通過將參數(shù)降低至300億同時將Token數(shù)提升至61億,以256張40GB的A100為資源訓練一個周期,只需要36天即可得到與GPT3相同質(zhì)量的訓練結(jié)果,而成本僅需要88萬美元,幾乎是GPT3原始訓練成本的三分之一。除了訓練策略的優(yōu)化外,通過對CPU主存+磁盤外存+GPU顯存的使用進行全局調(diào)度優(yōu)化,讓低端顯卡serve大模型成為可能。
“一款AI框架解決的其實是上層的業(yè)務模型需求到底層計算硬件執(zhí)行的映射問題,在性能足夠的情況下,僅拼性能就可能陷入了‘技術(shù)有深度但競爭呈紅海’的戰(zhàn)場。”
為了避免這樣的競爭,不少大模型在推出時便在宣傳上做了一定的區(qū)分,關(guān)鍵在于是否存在“通用”二字。這其中有源自NPL基底并在數(shù)個領(lǐng)域直接落地的星火、根植辦公場景的金山“WPS AI”、立足于問答社區(qū)生態(tài)的知乎“知海圖AI”等,其共同點在于針對具體場景,以對行業(yè)的縱深理解與數(shù)據(jù)支撐為基礎(chǔ),以大模型的“涌現(xiàn)”能力為跳板,實際上卻是披著通用大模型外衣的中小模型。
送水人也可以參考這樣的“技術(shù)商人“的思維。在楊軍看來,與其參與無謂的hardcore“內(nèi)卷”,不如去思考自己的技術(shù)點在可以在完整商業(yè)鏈中發(fā)揮什么功能,完成什么閉環(huán),通過能力與方向的差異化發(fā)掘更多價值。
保持一個啃硬骨頭的決心,開闊技術(shù)商業(yè)化的視野,是大模型玩家們的必修課。相對追求規(guī)模,我們與海外在小而美方向上的研究反而在時間節(jié)點上更相近,這也意味著更大的機會。無論是預算與資源相對緊張的創(chuàng)業(yè)公司還是有底氣隨時掏出數(shù)千張A卡的大廠,都需要認識到這點。
原文標題 : 從星火看大模型中場:祛魅與拷問

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?