DBRX達(dá)1320億參數(shù),最強(qiáng)開(kāi)源模型易主
前言:
DBRX的誕生標(biāo)志著全球范圍內(nèi)開(kāi)源人工智能語(yǔ)言模型技術(shù)的最新巔峰,并預(yù)示著人工智能技術(shù)的發(fā)展已正式進(jìn)入全新階段。
該模型通過(guò)深度學(xué)習(xí)技術(shù)和大規(guī)模訓(xùn)練數(shù)據(jù)的結(jié)合,不僅在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出色,更在程序代碼解析與生成、復(fù)雜數(shù)學(xué)計(jì)算以及邏輯推理等多個(gè)領(lǐng)域展現(xiàn)了前所未有的卓越能力。
作者 | 方文三
圖片來(lái)源 | 網(wǎng) 絡(luò)
全球最強(qiáng)開(kāi)源大模型王座易主
近期,全球開(kāi)源大模型領(lǐng)域迎來(lái)了重大變革,創(chuàng)業(yè)公司Databricks推出的新型開(kāi)源模型DBRX在技術(shù)層面已超越先前的領(lǐng)軍者Llama 2、Mixtral和Grok-1,榮登全球最強(qiáng)開(kāi)源大模型之巔。
這一突破性的成就,無(wú)疑為開(kāi)源模型領(lǐng)域樹(shù)立了新的里程碑。
值得注意的是,DBRX在訓(xùn)練成本上實(shí)現(xiàn)了顯著降低。Databricks公司僅投入1000萬(wàn)美元及3100塊H100芯片,便高效地在兩個(gè)月內(nèi)完成了DBRX的訓(xùn)練。
相較于Meta開(kāi)發(fā)Llama2所需的龐大投入,這一成本展示了Databricks公司在技術(shù)效率與成本控制上的卓越能力。
在性能表現(xiàn)方面,DBRX同樣展現(xiàn)出了強(qiáng)大的實(shí)力。無(wú)論是在語(yǔ)言理解、編程、數(shù)學(xué)還是邏輯領(lǐng)域,DBRX均輕松超越了開(kāi)源模型LLaMA2-70B、Mixtral和Grok-1。
更值得一提的是,DBRX的整體性能甚至超越了GPT-3.5,尤其在編程方面,DBRX展現(xiàn)出了超越GPT-3.5的卓越性能。
DBRX大模型,使用MoE架構(gòu)
Databricks公司最近推出了開(kāi)源模型DBRX,其參數(shù)規(guī)模高達(dá)1320億。
這款模型采用了先進(jìn)的細(xì)粒度MoE架構(gòu),每次輸入僅需使用360億參數(shù),顯著提升了每秒token吞吐量。
DBRX通過(guò)細(xì)粒度專(zhuān)家混合(MoE)架構(gòu),擁有更多的專(zhuān)家模型,從而在推理速度上大幅超越了LLaMA 2-70B,實(shí)現(xiàn)了兩倍的提升。
DBRX是一款基于Transformer純解碼器的大模型,同樣采用下一token預(yù)測(cè)進(jìn)行訓(xùn)練。
在MoE中,模型的某些部分會(huì)根據(jù)查詢(xún)內(nèi)容啟動(dòng),有效提高了模型的訓(xùn)練和運(yùn)行效率。
相較于其他開(kāi)源MoE模型如Mixtral和Grok-1,DBRX采用了細(xì)粒度設(shè)計(jì),使用更多數(shù)量的小型專(zhuān)家。
DBRX擁有16個(gè)專(zhuān)家模型,每次選擇4個(gè)使用,而Mixtral和Grok-1則分別擁有8個(gè)專(zhuān)家模型,每次選擇2個(gè)。
這種設(shè)計(jì)使得DBRX提供了65倍可能的專(zhuān)家組合,極大地提高了模型質(zhì)量。
此外,DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門(mén)控線(xiàn)性單元(GLU)和分組查詢(xún)注意力(GQA)等技術(shù),以提高模型質(zhì)量。同時(shí),DBRX還使用了tiktoken存儲(chǔ)庫(kù)中提供的GPT-4分詞器。
在方法層面,DBRX模型(包括預(yù)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和優(yōu)化策略)與上一代的MPT模型相當(dāng),但計(jì)算效率提高了近4倍。
三大核心能力表現(xiàn)突出
①經(jīng)過(guò)綜合評(píng)估,DBRX的“微調(diào)版”Instruct在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)卓越。
在Hugging Face Open LLM Leaderboard這一復(fù)合基準(zhǔn)測(cè)試中,DBRX Instruct以74.5%的得分榮登榜首,顯著領(lǐng)先于第二名Mixtral Instruct的72.7%。
同時(shí),在Databricks Model Gauntlet這一包含超過(guò)30項(xiàng)任務(wù)、橫跨六個(gè)領(lǐng)域的評(píng)估套件中,DBRX Instruct同樣以66.8%的得分拔得頭籌,較第二名Mixtral Instruct的60.7%有著明顯優(yōu)勢(shì)。
②DBRX Instruct在編程和數(shù)學(xué)相關(guān)任務(wù)上展現(xiàn)出了尤為突出的能力。
在HumanEval這一評(píng)估代碼質(zhì)量的任務(wù)中,其正確率達(dá)到了70.1%,比Grok-1高出約7個(gè)百分點(diǎn),比Mixtral Instruct高出約8個(gè)百分點(diǎn),并超越了所有被評(píng)估的LLaMA2-70B變體。
在GSM8k數(shù)學(xué)問(wèn)題解決測(cè)試中,DBRX Instruct同樣取得了最優(yōu)成績(jī)66.9%,超過(guò)了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。
值得注意的是,盡管Grok-1的參數(shù)數(shù)量是DBRX Instruct的2.4倍,但在上述編程和數(shù)學(xué)任務(wù)上,DBRX Instruct仍能保持領(lǐng)先地位。
甚至在針對(duì)編程任務(wù)專(zhuān)門(mén)設(shè)計(jì)的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表現(xiàn)依然出色。
③DBRX Instruct在多語(yǔ)言理解能力方面也表現(xiàn)出色。
在大規(guī)模多任務(wù)語(yǔ)言理解數(shù)據(jù)集(MMLU)上,DBRX Instruct繼續(xù)展示出頂級(jí)性能,得分高達(dá)73.7%,超過(guò)了本次比較的所有其他模型。
綜上所述,DBRX的“微調(diào)版”Instruct在多個(gè)基準(zhǔn)測(cè)試中均表現(xiàn)出色,尤其在編程、數(shù)學(xué)和多語(yǔ)言理解方面展現(xiàn)出了卓越的能力。
Databricks再次攪局,力爭(zhēng)市場(chǎng)破局
Databricks,源于加州大學(xué)伯克利分校的AMPLab項(xiàng)目,專(zhuān)注于研發(fā)基于Scala的開(kāi)源分布式計(jì)算框架Apache Spark,并首創(chuàng)了“湖倉(cāng)一體”(data Lakehouse)的概念。
2023年3月,該公司緊跟ChatGPT熱潮,推出了開(kāi)源語(yǔ)言模型dolly,并在后續(xù)2.0版本中提出了“首個(gè)真正開(kāi)放和商業(yè)可行的指令調(diào)優(yōu)LLM(大模型)”的口號(hào),這標(biāo)志著Databricks的“第二次行業(yè)革新”。
值得一提的是,Jonathan Frankle,曾是生成式AI初創(chuàng)公司MosaicML的首席科學(xué)家。
而Databricks在2023年6月以14億美元成功收購(gòu)了MosaicML,這一舉措促使Frankle辭去了哈佛大學(xué)教授的職務(wù),全身心投入到DBRX的研發(fā)中。
就在前些日子,馬斯克宣布了史上最大的開(kāi)源模型Grok-1的誕生,這一事件無(wú)疑引起了業(yè)界的廣泛關(guān)注。
Databricks之所以能在競(jìng)爭(zhēng)中脫穎而出,其關(guān)鍵在于公司的技術(shù)整合能力和專(zhuān)有數(shù)據(jù)。
這兩項(xiàng)核心優(yōu)勢(shì)將繼續(xù)推動(dòng)新的、更優(yōu)秀的模型變體的誕生。
DBRX團(tuán)隊(duì)擁有16名專(zhuān)家,并從中選擇了4名進(jìn)行模型開(kāi)發(fā),而Mixtral和Grok-1團(tuán)隊(duì)各有8名專(zhuān)家,選擇了2名。
這種選擇為DBRX提供了超過(guò)65倍的專(zhuān)家組合可能性,從而顯著提高了模型質(zhì)量。
DBRX在模型開(kāi)發(fā)中采用了旋轉(zhuǎn)位置編碼(RoPE)、門(mén)控線(xiàn)性單元(GLU)和分組查詢(xún)注意力(GQA)等技術(shù),并使用了tiktoken存儲(chǔ)庫(kù)中提供的GPT-4令牌化器(tokenizer)。
這些決策都是團(tuán)隊(duì)經(jīng)過(guò)深入評(píng)估和縮放實(shí)驗(yàn)后作出的明智選擇。
透露下一步有關(guān)開(kāi)源模型的計(jì)劃
①即將推出RAG工具,這一模式對(duì)于其發(fā)展具有重大意義。同時(shí),Databricks中已經(jīng)內(nèi)置了簡(jiǎn)潔高效的RAG方法。
接下來(lái),將致力于將DBRX模型打造成為RAG的最佳生成器模型,為用戶(hù)提供更為強(qiáng)大的支持。
②DBRX模型將在所有主流云環(huán)境產(chǎn)品,包括AWS、谷歌云(GCP)和Azure等平臺(tái)上進(jìn)行托管。
作為一款開(kāi)源模型,鼓勵(lì)用戶(hù)根據(jù)自身需求自由地使用它,以推動(dòng)業(yè)務(wù)的發(fā)展和創(chuàng)新。
③DBRX模型預(yù)計(jì)將通過(guò)Nvidia API Catalog進(jìn)行提供,并在Nvidia NIM推理微服務(wù)上獲得支持。
這將為用戶(hù)帶來(lái)更加穩(wěn)定和高效的推理體驗(yàn),進(jìn)一步推動(dòng)業(yè)務(wù)的增長(zhǎng)和拓展。
讓大模型廠(chǎng)商看到了變現(xiàn)的路徑
Databricks專(zhuān)注于協(xié)助企業(yè)構(gòu)建、訓(xùn)練和擴(kuò)展符合其特定需求的模型,此舉具有深遠(yuǎn)意義。
這支獨(dú)角獸團(tuán)隊(duì)高度重視企業(yè)的采納情況,因?yàn)檫@直接關(guān)系到他們的商業(yè)模式。
作為L(zhǎng)LM發(fā)布計(jì)劃的一部分,Databricks以開(kāi)放許可證的形式推出了兩個(gè)模型:DBRX Base和DBRX Instruct。
DBRX Base是一個(gè)預(yù)訓(xùn)練的基礎(chǔ)模型,而DBRX Instruct則是針對(duì)少量交互的微調(diào)版本。
值得一提的是,DBRX得到了Azure數(shù)據(jù)庫(kù)在AWS、Google Cloud和Microsoft Azure上的支持,這意味著企業(yè)可以輕松地下載模型并在任何他們選擇的圖形處理器(GPU)上運(yùn)行。
此外,企業(yè)還可以選擇訂閱DBRX和其他工具,如檢索增強(qiáng)生成(RAG),通過(guò)Databricks的Mosaic AI Model服務(wù)產(chǎn)品定制LLM。
Mosaic AI Model服務(wù)通過(guò)Foundation Model APIs與DBRX相連,使企業(yè)能夠從服務(wù)端點(diǎn)訪(fǎng)問(wèn)和查詢(xún)LLMs。這一功能為企業(yè)提供了更強(qiáng)大的定制能力和靈活性。
Foundation Model APIs提供兩種定價(jià)模式:按Tokens付費(fèi)和分配的吞吐量。
按Tokens付費(fèi)的定價(jià)是基于并發(fā)請(qǐng)求,而吞吐量則是按每小時(shí)每個(gè)GPU實(shí)例計(jì)費(fèi)。
兩種費(fèi)率,包括云實(shí)例成本,均從每個(gè)Databricks單位$0.070開(kāi)始。
同時(shí),Databricks還為不同的GPU配置提供了相應(yīng)的定價(jià)區(qū)間,以滿(mǎn)足企業(yè)在不同場(chǎng)景下的計(jì)算需求。
通過(guò)穩(wěn)健的商業(yè)模式和開(kāi)源大模型的結(jié)合,這也為企業(yè)提供了進(jìn)入AIGC領(lǐng)域的門(mén)票。
通過(guò)使用我們的平臺(tái),企業(yè)不僅可以降低使用自身企業(yè)數(shù)據(jù)開(kāi)發(fā)生成性AI用例的成本,而且不會(huì)受到封閉模型提供商(如OpenAI)對(duì)商業(yè)用途的限制。
結(jié)尾:
隨著2024年AI大模型的迅猛進(jìn)步,創(chuàng)新與突破呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。
例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發(fā)布并開(kāi)放使用。
隨著LLM社區(qū)的逐漸成熟,我們有理由相信,在不久的將來(lái),每個(gè)企業(yè)都將有能力在新興的生成式AI領(lǐng)域構(gòu)建專(zhuān)有的私有LLM模型,并充分發(fā)掘和利用企業(yè)私有數(shù)據(jù)的價(jià)值。
部分資料參考:機(jī)器之心:《開(kāi)源大模型王座再易主,1320億參數(shù)DBRX上線(xiàn)》,新智元:《全球最強(qiáng)開(kāi)源模型一夜易主,1320億參數(shù)推理飆升2倍》,CSDN:《Databricks 開(kāi)源 1320 億參數(shù)大模型強(qiáng)勢(shì)攪局,Grok 和 LLaMA 悉數(shù)落敗》,編程奇點(diǎn):《馬斯克剛開(kāi)源10天的Grok遭吊打,1320億參數(shù)DBRX上線(xiàn)》,開(kāi)源AI項(xiàng)目落地:《DBRX:全球最強(qiáng)開(kāi)源大模型易主》
原文標(biāo)題 : AI芯天下丨熱點(diǎn)丨DBRX達(dá)1320億參數(shù),最強(qiáng)開(kāi)源模型易主

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專(zhuān)題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 3 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 4 2025年8月人工智能投融資觀(guān)察
- 5 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 6 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 7 Manus跑路,大廠(chǎng)掉線(xiàn),只能靠DeepSeek了
- 8 地平線(xiàn)的野心:1000萬(wàn)套HSD上車(chē)
- 9 一萬(wàn)億美元!馬斯克薪酬細(xì)節(jié)拆解
- 10 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命