被OpenAI“封號”,字節(jié)跳動在打什么算盤?
高質(zhì)量的語料數(shù)據(jù) ,是大模型的“香餑餑”。
眼看著2023就要過去了,沒想到年底又曝出一個(gè)大瓜。
近期據(jù)《The Verge》報(bào)道:
字節(jié)跳動因使用ChatGPT的API,來開發(fā)自家大模型,被OpenAI“封號”了。
盡管在事后,字節(jié)澄清,表示自己此舉“僅為測試”,且早已勒令停止。
然而,這終歸是一件讓人浮想聯(lián)翩的事……
字節(jié)被封號的背后,打的究竟是什么算盤?
01 字節(jié)想要什么?
雖然在《The Verge》報(bào)道中,沒有明確指出字節(jié)究竟是怎么用OpenAI的API來開發(fā)自身大模型的,但可能的訓(xùn)練路徑來說,用一個(gè)大模型(例如OpenAI的GPT)來訓(xùn)練另一個(gè)大模型的過程,往往有以下幾種。
其中一種,就是“師傅帶徒弟”的模式。
想象一下,師傅(已有的大模型)在處理各種任務(wù)時(shí),會生成一些輸出(例如文本、圖像等)。徒弟(新的大模型)會觀察師傅的行為,嘗試模仿這些輸出。
這樣,徒弟就能學(xué)會如何處理類似的任務(wù)。在實(shí)際應(yīng)用中,這可以通過讓新模型學(xué)習(xí)舊模型生成的數(shù)據(jù)來實(shí)現(xiàn)。
還有一種方式,就是通過聯(lián)合訓(xùn)練,讓“師傅”和“徒弟”一起處理任務(wù)。
在實(shí)際應(yīng)用中,這可以通過讓兩個(gè)模型共享一些層次或參數(shù)來實(shí)現(xiàn),新舊模型就可以互相學(xué)習(xí)、互相幫助,共同完成任務(wù)。
從技術(shù)可行性來判斷,在這次事件中,字節(jié)使用的更有可能是第一種方法。
即利用了OpenAI API生成的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。
因此,在這次風(fēng)波中,字節(jié)真正想要的,是ChatGPT生成的高質(zhì)量語料數(shù)據(jù)。
而這樣的數(shù)據(jù),也是任何一個(gè)訓(xùn)練中的大模型,最渴望的“香餑餑”。
但由于之前OpenAI的協(xié)議中,已明確表示禁止用其大模型去開發(fā)競品,因此,字節(jié)被OpenAI“封號”也是一種必然。
問題是:作為一家實(shí)力雄厚的大廠,字節(jié)理應(yīng)不缺相應(yīng)的人手和資金,去做這些數(shù)據(jù)爬取、語料標(biāo)注方面的工作,為何要走這一步“險(xiǎn)棋”呢?
02 為何犯險(xiǎn)?
其實(shí),在現(xiàn)階段的大模型賽道上,字節(jié)缺的不是人才和資金,而是時(shí)間。
與百度、訊飛等國內(nèi)大廠相比,字節(jié)真正入局大模型的時(shí)間,可以說是相當(dāng)晚了。
從時(shí)間上看,字節(jié)真正推出第一款大模型豆包的時(shí)間,是今年的8月中旬,而那時(shí),大模型之火已經(jīng)燃燒了近半年之久。
任何真正想入局大模型的玩家都知道,模型層的競爭,是有時(shí)間窗口的。
在大模型領(lǐng)域,先進(jìn)入市場的企業(yè)往往能夠積累更多的用戶、數(shù)據(jù)和經(jīng)驗(yàn),從而形成競爭優(yōu)勢。后來者要想迎頭趕上,需要付出更多的努力和成本。
盡管8月上線的豆包,讓字節(jié)勉強(qiáng)趕上了模型層的晚班車,但從性能和定位上看,那更像是一個(gè)“嘗鮮”的應(yīng)景之作,無法真正與字節(jié)現(xiàn)有的業(yè)務(wù)相契合。
作為一個(gè)在移動互聯(lián)網(wǎng)時(shí)代制造了抖音這類爆款的大廠,字節(jié)真正想要的,是像文心一言那樣更通用、更全能,且能整合或嵌入進(jìn)自身的各類APP中的大模型。
這才有了后來字節(jié)的“種子計(jì)劃”——計(jì)劃在今年年底前,打造與 GPT-3.5 性能相匹敵的Seed 大模型。
問題是,大模型的訓(xùn)練,終歸不是件一蹴而就的事。
標(biāo)注數(shù)據(jù)、提取優(yōu)質(zhì)語料等等一系列繁瑣的前期工作,都需要時(shí)間。
那如何在有限的、緊迫的時(shí)間內(nèi),搜集到足夠多的高質(zhì)量語料數(shù)據(jù)?
一個(gè)最靠譜的辦法,就是直接使用那些已經(jīng)驗(yàn)證過的,成熟度較高的模型的數(shù)據(jù),例如ChatGPT。
03 模型層的窗口期
其實(shí),不只是字節(jié),即使是身處一線的AI玩家谷歌,也為了“急于求成”,做出了類似小動作。
本月月初,谷歌曾失望地宣布,被其寄予厚望的大模型Gemini,由于無法較好地處理非英語領(lǐng)域的查詢?nèi)蝿?wù),而被推遲了上線。
可鬼使神差的是,之后沒過幾天,谷歌就來了個(gè)回馬槍,在12月6日鄭重推出了Gemini,似乎之前提到的“缺陷”已經(jīng)不是問題。
后來,網(wǎng)友經(jīng)過測試才發(fā)現(xiàn),原來谷歌早就從百度的文心一言那里找到了“解決之策”。
經(jīng)過微博大V@闌夕夜等眾多網(wǎng)友的測試,在與Gemini-Pro用中文交流時(shí),如果問“你是誰”,Gemini-Pro上來就回答:我是百度文心大模型。
如此狀況,讓人紛紛猜測,是谷歌直接用了百度文心一言的中文語料進(jìn)行訓(xùn)練。
為了反超GPT-4,谷歌真是趕鴨子上架了。
不過,從長遠(yuǎn)來看,這種大廠互相薅羊毛的行為,終歸是一種暫時(shí)的現(xiàn)象。
畢竟,經(jīng)過這么幾回“露餡”后,各個(gè)大廠一定會對自家的數(shù)據(jù)看得更嚴(yán),更死。
但即便如此,這種互相套用數(shù)據(jù)的行為,也讓眾多用戶、投資人不禁暗自嘀咕:如果各個(gè)模型之間的數(shù)據(jù),在技術(shù)上能輕易地互相套用,那將來除了ChatGPT等少數(shù)頂流外,還有哪些模型是有“真材實(shí)料”的?
這樣的擔(dān)憂背后,其實(shí)有一個(gè)更重要的前置性問題,那就是:
我們?yōu)槭裁葱枰敲炊嗬淄拇竽P停?/strong>
畢竟,人類的語料數(shù)據(jù),終歸是有限的,頂流團(tuán)隊(duì)的模型(如ChatGPT)已經(jīng)挖走了絕大部分,剩下的那一小撮專有數(shù)據(jù),也早已被各個(gè)垂直行業(yè)瓜分完畢。
在模型層創(chuàng)業(yè)已近尾聲的今天,比起數(shù)據(jù),更能拉開差距的,是側(cè)重點(diǎn)不同的訓(xùn)練方式,以及由此打造的各種功能。
而這樣成為了用戶能否容忍這種“套用”行為的關(guān)鍵。
在這點(diǎn)上,谷歌的Gemini給出的答卷,是更強(qiáng)的原生多模態(tài)功能(有夸大之嫌)。
而字節(jié)的Seed大模型,將來能否逆風(fēng)翻盤,贏得用戶的信任,也得看有沒有“一美遮百丑”的亮點(diǎn)。
原文標(biāo)題 : 被OpenAI“封號”,字節(jié)跳動在打什么算盤?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?