阿里,全球第一。!
近日,全球著名開(kāi)源平臺(tái)HuggingFace(笑臉)聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem在社交平臺(tái)宣布,阿里最新開(kāi)源的Qwen2-72B指令微調(diào)版本衛(wèi)冕冠軍,繼續(xù)位列全球開(kāi)源模型排行榜第一名。
在OpenAI拒絕中國(guó)開(kāi)發(fā)者的當(dāng)口,這個(gè)“第一名”來(lái)得非常及時(shí)。
第一,中國(guó)開(kāi)發(fā)者從OpenAI集體“回家”,國(guó)內(nèi)大模型供應(yīng)商紛紛推出遷移方案迎接。雷科技在《OpenAI拒絕中國(guó)開(kāi)發(fā)者,“百模大戰(zhàn)”全面進(jìn)入下半場(chǎng)》一文已盤(pán)點(diǎn),超過(guò)10家大模型供應(yīng)商推出各種服務(wù)來(lái)“搶客”。
不過(guò),在很多人固有印象中,中國(guó)大模型供應(yīng)商只是“平替版本”,是實(shí)在沒(méi)得用了,勉強(qiáng)能用的。甚至還有人說(shuō)GPT是高鐵,國(guó)產(chǎn)大模型就是拖拉機(jī),雖然都能跑,但其實(shí)不一樣。
其實(shí)這是偏見(jiàn),在很多領(lǐng)域,國(guó)內(nèi)大模型都已經(jīng)具有世界級(jí)競(jìng)爭(zhēng)力了,特別是開(kāi)源大模型。
什么叫具備世界級(jí)競(jìng)爭(zhēng)力的大模型?這里分兩種:
一種是每次發(fā)布會(huì)都號(hào)稱全面碾壓GPT4的玩家,參數(shù)沒(méi)輸過(guò),評(píng)測(cè)沒(méi)贏過(guò),這是自賣(mài)自夸,自吹自擂。
還有一類,是在權(quán)威榜單上拿到名次的。HuggingFace是全球最權(quán)威的開(kāi)源模型榜單,它給阿里云的Qwen2“正名”,或者說(shuō)給了“權(quán)威認(rèn)證”。
第二,為什么HuggingFace能做全球最權(quán)威的開(kāi)源模型榜單?
為什么HuggingFace能做全球最權(quán)威的開(kāi)源模型榜單?這個(gè)定義不是隨便給的,而是跟這個(gè)平臺(tái)的背景有關(guān)系。HuggingFace不是大模型供應(yīng)商,而是全球最受歡迎的大模型和數(shù)據(jù)集開(kāi)源社區(qū),開(kāi)發(fā)者可以在這里獲取大模型開(kāi)源代碼、獲取數(shù)據(jù)集進(jìn)行訓(xùn)練。可以說(shuō),做AI開(kāi)發(fā),基本繞不過(guò)HuggingFace,因此它也被稱為大模型/機(jī)器學(xué)習(xí)的GitHub。
也就是說(shuō),HuggingFace更像是一個(gè)大模型的應(yīng)用、分發(fā)、發(fā)布平臺(tái)。包括微軟、Facebook、特斯拉等等巨頭的大模型,都會(huì)在HuggingFace主發(fā)布。比如在前段時(shí)間的微軟Build大會(huì),納德拉就宣布微軟在 Huggingface 上發(fā)布了 Phi-3-medium,Phi-3-small,以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消費(fèi)級(jí)硬件上可用的最好模型。
有海量開(kāi)源大模型以及數(shù)據(jù)集,有海量AI開(kāi)發(fā)者以及使用數(shù)據(jù),因此HuggingFace可以做出行業(yè)最權(quán)威的開(kāi)源模型榜單。這跟媒體或者專門(mén)的第三方評(píng)測(cè)機(jī)構(gòu)做的榜單有本質(zhì)不同。很多評(píng)測(cè)榜單源自這樣的“第三方”,姑且不說(shuō)權(quán)威性、客觀性、中立性,恐怕專業(yè)性也會(huì)大打折扣。
好了,說(shuō)清楚HuggingFace榜單的權(quán)威性后,我們?cè)倏窗⒗镌频腝wen2有多強(qiáng)?
第三,為什么HuggingFace 6月兩次發(fā)榜?榜單V2意義在哪里?
其實(shí)今年6月7日,HuggingFace也發(fā)過(guò)一次榜單,當(dāng)時(shí)第一也是Qwen2。為什么要更新榜單到V2呢?HuggingFace說(shuō)是,“榜單內(nèi)的測(cè)試集,更難、更好、更快、更強(qiáng)(Harder, better, faster, stronger)。”因此,對(duì)模型的考察也更有說(shuō)服力。
其實(shí)對(duì)大模型基于測(cè)試數(shù)據(jù)集進(jìn)行評(píng)測(cè)的過(guò)程,形象點(diǎn)說(shuō)就是“做題考分”,跟我們考試一樣。但問(wèn)題是,這個(gè)題目是開(kāi)放的。因此就出現(xiàn)了一種情況:很多大模型會(huì)“刷題”,就是讓大模型先訓(xùn)練幾波,進(jìn)而拿到好的評(píng)測(cè)分?jǐn)?shù),有的公司會(huì)雇傭人類“數(shù)據(jù)標(biāo)注員”來(lái)做題將答案給到大模型,還有的公司會(huì)讓GPT-4來(lái)答題再將答案用來(lái)訓(xùn)練自家大模型,大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4,玄妙正在于這里。
也就是說(shuō),開(kāi)源評(píng)測(cè)數(shù)據(jù)集相當(dāng)于高考搞“開(kāi)卷考試”一樣,除非是特別開(kāi)放的問(wèn)題(如職場(chǎng)面試),否則被試者完全可以提前針對(duì)性地刷題背答案,最終得分自然完全無(wú)法反映出其真實(shí)水平。
HuggingFace也在技術(shù)博文指出,“過(guò)去一年,Open LLM Leaderboard的基準(zhǔn)指標(biāo)已經(jīng)被過(guò)度使用,出現(xiàn)幾個(gè)問(wèn)題:題目對(duì)模型來(lái)說(shuō)變得太簡(jiǎn)單;一些新近出現(xiàn)的模型出現(xiàn)數(shù)據(jù)污染跡象;有些測(cè)評(píng)基準(zhǔn)存在錯(cuò)誤。因此,平臺(tái)提出了更有挑戰(zhàn)性的V2榜單,基于未受污染、高質(zhì)量數(shù)據(jù)集的新基準(zhǔn),運(yùn)用可靠的度量標(biāo)準(zhǔn)。”
好了,現(xiàn)在測(cè)試數(shù)據(jù)集(題目)大更新,最新的試卷、最新的考試,阿里云的Qwen2還是第一。也正是因?yàn)榇,Huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem才會(huì)公開(kāi)發(fā)文稱“Qwen2-72B是王者,中國(guó)在全球開(kāi)源大模型領(lǐng)域處于領(lǐng)導(dǎo)地位。”如果沒(méi)有嚴(yán)格、充分的測(cè)試,他不可能公開(kāi)進(jìn)行這樣的“點(diǎn)贊”。
期待以后HuggingFace的榜單可以升級(jí)更快,測(cè)試數(shù)據(jù)集可以更新更快,阿里云的Qwen2以及國(guó)產(chǎn)大模型可以繼續(xù)擁有更好的名次。
OpenAI不支持中國(guó)開(kāi)發(fā)者,開(kāi)源大模型廠商必須要快速精進(jìn),勇敢補(bǔ)位。現(xiàn)在,是國(guó)產(chǎn)大模型、國(guó)產(chǎn)開(kāi)源大模型生態(tài)被倒逼加速進(jìn)步的絕佳時(shí)機(jī),也是證明自己的好時(shí)機(jī)。
原文標(biāo)題 : 阿里,全球第一。。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷(xiāo)中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局