春意影院午夜免费入口,亚洲天堂AV在线

DBRX達(dá)1320億參數(shù)，最強開源模型易主

2024-04-02 09:31

前言：

DBRX的誕生標(biāo)志著全球范圍內(nèi)開源人工智能語言模型技術(shù)的最新巔峰，并預(yù)示著人工智能技術(shù)的發(fā)展已正式進(jìn)入全新階段。

該模型通過深度學(xué)習(xí)技術(shù)和大規(guī)模訓(xùn)練數(shù)據(jù)的結(jié)合，不僅在自然語言處理領(lǐng)域表現(xiàn)出色，更在程序代碼解析與生成、復(fù)雜數(shù)學(xué)計算以及邏輯推理等多個領(lǐng)域展現(xiàn)了前所未有的卓越能力。

作者 | 方文三

圖片來源 | 網(wǎng) 絡(luò)

全球最強開源大模型王座易主

近期，全球開源大模型領(lǐng)域迎來了重大變革，創(chuàng)業(yè)公司Databricks推出的新型開源模型DBRX在技術(shù)層面已超越先前的領(lǐng)軍者Llama 2、Mixtral和Grok-1，榮登全球最強開源大模型之巔。

這一突破性的成就，無疑為開源模型領(lǐng)域樹立了新的里程碑。

值得注意的是，DBRX在訓(xùn)練成本上實現(xiàn)了顯著降低。Databricks公司僅投入1000萬美元及3100塊H100芯片，便高效地在兩個月內(nèi)完成了DBRX的訓(xùn)練。

相較于Meta開發(fā)Llama2所需的龐大投入，這一成本展示了Databricks公司在技術(shù)效率與成本控制上的卓越能力。

在性能表現(xiàn)方面，DBRX同樣展現(xiàn)出了強大的實力。無論是在語言理解、編程、數(shù)學(xué)還是邏輯領(lǐng)域，DBRX均輕松超越了開源模型LLaMA2-70B、Mixtral和Grok-1。

更值得一提的是，DBRX的整體性能甚至超越了GPT-3.5，尤其在編程方面，DBRX展現(xiàn)出了超越GPT-3.5的卓越性能。

DBRX大模型，使用MoE架構(gòu)

Databricks公司最近推出了開源模型DBRX，其參數(shù)規(guī)模高達(dá)1320億。

這款模型采用了先進(jìn)的細(xì)粒度MoE架構(gòu)，每次輸入僅需使用360億參數(shù)，顯著提升了每秒token吞吐量。

DBRX通過細(xì)粒度專家混合（MoE）架構(gòu)，擁有更多的專家模型，從而在推理速度上大幅超越了LLaMA 2-70B，實現(xiàn)了兩倍的提升。

DBRX是一款基于Transformer純解碼器的大模型，同樣采用下一token預(yù)測進(jìn)行訓(xùn)練。

在MoE中，模型的某些部分會根據(jù)查詢內(nèi)容啟動，有效提高了模型的訓(xùn)練和運行效率。

相較于其他開源MoE模型如Mixtral和Grok-1，DBRX采用了細(xì)粒度設(shè)計，使用更多數(shù)量的小型專家。

DBRX擁有16個專家模型，每次選擇4個使用，而Mixtral和Grok-1則分別擁有8個專家模型，每次選擇2個。

這種設(shè)計使得DBRX提供了65倍可能的專家組合，極大地提高了模型質(zhì)量。

此外，DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù)，以提高模型質(zhì)量。同時，DBRX還使用了tiktoken存儲庫中提供的GPT-4分詞器。

在方法層面，DBRX模型（包括預(yù)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和優(yōu)化策略）與上一代的MPT模型相當(dāng)，但計算效率提高了近4倍。

三大核心能力表現(xiàn)突出

①經(jīng)過綜合評估，DBRX的“微調(diào)版”Instruct在多個基準(zhǔn)測試中表現(xiàn)卓越。

在Hugging Face Open LLM Leaderboard這一復(fù)合基準(zhǔn)測試中，DBRX Instruct以74.5%的得分榮登榜首，顯著領(lǐng)先于第二名Mixtral Instruct的72.7%。

同時，在Databricks Model Gauntlet這一包含超過30項任務(wù)、橫跨六個領(lǐng)域的評估套件中，DBRX Instruct同樣以66.8%的得分拔得頭籌，較第二名Mixtral Instruct的60.7%有著明顯優(yōu)勢。

②DBRX Instruct在編程和數(shù)學(xué)相關(guān)任務(wù)上展現(xiàn)出了尤為突出的能力。

在HumanEval這一評估代碼質(zhì)量的任務(wù)中，其正確率達(dá)到了70.1%，比Grok-1高出約7個百分點，比Mixtral Instruct高出約8個百分點，并超越了所有被評估的LLaMA2-70B變體。

在GSM8k數(shù)學(xué)問題解決測試中，DBRX Instruct同樣取得了最優(yōu)成績66.9%，超過了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。

值得注意的是，盡管Grok-1的參數(shù)數(shù)量是DBRX Instruct的2.4倍，但在上述編程和數(shù)學(xué)任務(wù)上，DBRX Instruct仍能保持領(lǐng)先地位。

甚至在針對編程任務(wù)專門設(shè)計的CodeLLaMA-70B Instruct模型之上，DBRX Instruct在HumanEval上的表現(xiàn)依然出色。

③DBRX Instruct在多語言理解能力方面也表現(xiàn)出色。

在大規(guī)模多任務(wù)語言理解數(shù)據(jù)集（MMLU）上，DBRX Instruct繼續(xù)展示出頂級性能，得分高達(dá)73.7%，超過了本次比較的所有其他模型。

綜上所述，DBRX的“微調(diào)版”Instruct在多個基準(zhǔn)測試中均表現(xiàn)出色，尤其在編程、數(shù)學(xué)和多語言理解方面展現(xiàn)出了卓越的能力。

Databricks再次攪局，力爭市場破局

Databricks，源于加州大學(xué)伯克利分校的AMPLab項目，專注于研發(fā)基于Scala的開源分布式計算框架Apache Spark，并首創(chuàng)了“湖倉一體”（data Lakehouse）的概念。

2023年3月，該公司緊跟ChatGPT熱潮，推出了開源語言模型dolly，并在后續(xù)2.0版本中提出了“首個真正開放和商業(yè)可行的指令調(diào)優(yōu)LLM（大模型）”的口號，這標(biāo)志著Databricks的“第二次行業(yè)革新”。

值得一提的是，Jonathan Frankle，曾是生成式AI初創(chuàng)公司MosaicML的首席科學(xué)家。

而Databricks在2023年6月以14億美元成功收購了MosaicML，這一舉措促使Frankle辭去了哈佛大學(xué)教授的職務(wù)，全身心投入到DBRX的研發(fā)中。

就在前些日子，馬斯克宣布了史上最大的開源模型Grok-1的誕生，這一事件無疑引起了業(yè)界的廣泛關(guān)注。

Databricks之所以能在競爭中脫穎而出，其關(guān)鍵在于公司的技術(shù)整合能力和專有數(shù)據(jù)。

這兩項核心優(yōu)勢將繼續(xù)推動新的、更優(yōu)秀的模型變體的誕生。

DBRX團(tuán)隊擁有16名專家，并從中選擇了4名進(jìn)行模型開發(fā)，而Mixtral和Grok-1團(tuán)隊各有8名專家，選擇了2名。

這種選擇為DBRX提供了超過65倍的專家組合可能性，從而顯著提高了模型質(zhì)量。

DBRX在模型開發(fā)中采用了旋轉(zhuǎn)位置編碼（RoPE）、門控線性單元（GLU）和分組查詢注意力（GQA）等技術(shù)，并使用了tiktoken存儲庫中提供的GPT-4令牌化器（tokenizer）。

這些決策都是團(tuán)隊經(jīng)過深入評估和縮放實驗后作出的明智選擇。

透露下一步有關(guān)開源模型的計劃

①即將推出RAG工具，這一模式對于其發(fā)展具有重大意義。同時，Databricks中已經(jīng)內(nèi)置了簡潔高效的RAG方法。

接下來，將致力于將DBRX模型打造成為RAG的最佳生成器模型，為用戶提供更為強大的支持。

②DBRX模型將在所有主流云環(huán)境產(chǎn)品，包括AWS、谷歌云（GCP）和Azure等平臺上進(jìn)行托管。

作為一款開源模型，鼓勵用戶根據(jù)自身需求自由地使用它，以推動業(yè)務(wù)的發(fā)展和創(chuàng)新。

③DBRX模型預(yù)計將通過Nvidia API Catalog進(jìn)行提供，并在Nvidia NIM推理微服務(wù)上獲得支持。

這將為用戶帶來更加穩(wěn)定和高效的推理體驗，進(jìn)一步推動業(yè)務(wù)的增長和拓展。

讓大模型廠商看到了變現(xiàn)的路徑

Databricks專注于協(xié)助企業(yè)構(gòu)建、訓(xùn)練和擴(kuò)展符合其特定需求的模型，此舉具有深遠(yuǎn)意義。

這支獨角獸團(tuán)隊高度重視企業(yè)的采納情況，因為這直接關(guān)系到他們的商業(yè)模式。

作為LLM發(fā)布計劃的一部分，Databricks以開放許可證的形式推出了兩個模型：DBRX Base和DBRX Instruct。

DBRX Base是一個預(yù)訓(xùn)練的基礎(chǔ)模型，而DBRX Instruct則是針對少量交互的微調(diào)版本。

值得一提的是，DBRX得到了Azure數(shù)據(jù)庫在AWS、Google Cloud和Microsoft Azure上的支持，這意味著企業(yè)可以輕松地下載模型并在任何他們選擇的圖形處理器(GPU)上運行。

此外，企業(yè)還可以選擇訂閱DBRX和其他工具，如檢索增強生成(RAG)，通過Databricks的Mosaic AI Model服務(wù)產(chǎn)品定制LLM。

Mosaic AI Model服務(wù)通過Foundation Model APIs與DBRX相連，使企業(yè)能夠從服務(wù)端點訪問和查詢LLMs。這一功能為企業(yè)提供了更強大的定制能力和靈活性。

Foundation Model APIs提供兩種定價模式：按Tokens付費和分配的吞吐量。

按Tokens付費的定價是基于并發(fā)請求，而吞吐量則是按每小時每個GPU實例計費。

兩種費率，包括云實例成本，均從每個Databricks單位$0.070開始。

同時，Databricks還為不同的GPU配置提供了相應(yīng)的定價區(qū)間，以滿足企業(yè)在不同場景下的計算需求。

通過穩(wěn)健的商業(yè)模式和開源大模型的結(jié)合，這也為企業(yè)提供了進(jìn)入AIGC領(lǐng)域的門票。

通過使用我們的平臺，企業(yè)不僅可以降低使用自身企業(yè)數(shù)據(jù)開發(fā)生成性AI用例的成本，而且不會受到封閉模型提供商（如OpenAI）對商業(yè)用途的限制。

結(jié)尾：

隨著2024年AI大模型的迅猛進(jìn)步，創(chuàng)新與突破呈現(xiàn)出指數(shù)級增長。

例如，OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發(fā)布并開放使用。

隨著LLM社區(qū)的逐漸成熟，我們有理由相信，在不久的將來，每個企業(yè)都將有能力在新興的生成式AI領(lǐng)域構(gòu)建專有的私有LLM模型，并充分發(fā)掘和利用企業(yè)私有數(shù)據(jù)的價值。

部分資料參考：機(jī)器之心：《開源大模型王座再易主，1320億參數(shù)DBRX上線》，新智元：《全球最強開源模型一夜易主，1320億參數(shù)推理飆升2倍》，CSDN：《Databricks 開源 1320 億參數(shù)大模型強勢攪局，Grok 和 LLaMA 悉數(shù)落敗》，編程奇點：《馬斯克剛開源10天的Grok遭吊打，1320億參數(shù)DBRX上線》，開源AI項目落地：《DBRX：全球最強開源大模型易主》

原文標(biāo)題 : AI芯天下丨熱點丨DBRX達(dá)1320億參數(shù)，最強開源模型易主