OPPO小布推出預(yù)訓(xùn)練大模型OBERT,晉升KgCLUE榜首
近日,OPPO小布助手團(tuán)隊(duì)和機(jī)器學(xué)習(xí)部聯(lián)合完成了十億參數(shù)模型“OBERT”的預(yù)訓(xùn)練,業(yè)務(wù)上取得了4%以上的提升;在行業(yè)對(duì)比評(píng)測(cè)中,OBERT躍居中文語(yǔ)言理解測(cè)評(píng)基準(zhǔn)CLUE1.1總榜第五名、大規(guī)模知識(shí)圖譜問(wèn)答KgCLUE1.0排行榜第一名,在十億級(jí)模型上進(jìn)入第一梯隊(duì),多項(xiàng)子任務(wù)得分與排前3名的百億參數(shù)模型效果非常接近,而參數(shù)量?jī)H為后者的十分之一,更有利于大規(guī)模工業(yè)化應(yīng)用。
CLUE1.1總榜,共9個(gè)子任務(wù)
KgCLUE1.0,知識(shí)圖譜問(wèn)答榜
技術(shù)全自研,小布推動(dòng)十億級(jí)預(yù)訓(xùn)練大模型落地
大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn),為自然語(yǔ)言處理任務(wù)帶來(lái)了新的求解范式,也顯著地提升了各類NLP任務(wù)的基準(zhǔn)效果。自2020年,OPPO小布助手團(tuán)隊(duì)開(kāi)始對(duì)預(yù)訓(xùn)練模型進(jìn)行探索和落地應(yīng)用,從“可大規(guī)模工業(yè)化”的角度出發(fā),先后自研了一億、三億和十億參數(shù)量的預(yù)訓(xùn)練模型OBERT。
預(yù)訓(xùn)練模型開(kāi)發(fā)&應(yīng)用方案
得益于數(shù)據(jù)獲取的低成本性和語(yǔ)言模型強(qiáng)大的遷移能力,目前NLP預(yù)訓(xùn)練主流的任務(wù)是基于分布式假設(shè)的語(yǔ)言模型。在此,小布助手團(tuán)隊(duì)選擇了在下游自然語(yǔ)言理解類(NLU)任務(wù)上有更好效果的MLM,并采用課程學(xué)習(xí)作為主要預(yù)訓(xùn)練策略,由易到難循序漸進(jìn),提高訓(xùn)練穩(wěn)定性。首先在一億級(jí)模型上驗(yàn)證了以上mask策略的有效性,其Zero-shot效果顯著優(yōu)于開(kāi)源base級(jí)模型,下游應(yīng)用時(shí)也取得了收益,隨后將其應(yīng)用到十億級(jí)模型訓(xùn)練中。
ZeroCLUE榜單
值得一提的是,從開(kāi)源工作實(shí)驗(yàn)結(jié)果來(lái)看,語(yǔ)料的數(shù)量和內(nèi)容多樣性越大,下游任務(wù)效果會(huì)隨之提升;谇捌诘奶剿骱蛧L試,十億級(jí)OBERT模型清洗和收集了1.6 TB級(jí)語(yǔ)料,通過(guò)5種mask機(jī)制從中學(xué)習(xí)語(yǔ)言知識(shí),內(nèi)容包含百科、社區(qū)問(wèn)答、新聞等,場(chǎng)景涉及意圖理解、多輪聊天、文本匹配等NLP任務(wù)。
加強(qiáng)應(yīng)用創(chuàng)新,小布持續(xù)深耕NLP技術(shù)
CLUE(中文語(yǔ)言理解評(píng)測(cè)集合)榜單是中文領(lǐng)域最具權(quán)威的自然語(yǔ)言理解榜單之一,開(kāi)設(shè)了包括分類、文本相似度、閱讀理解、上下文推理等共10個(gè)子任務(wù),旨在推動(dòng)NLP訓(xùn)練模型技術(shù)的不斷進(jìn)步和突破。
NLP(自然語(yǔ)言處理)技術(shù)被譽(yù)為人工智能皇冠上的明珠。作為人工智能認(rèn)知能力的核心,NLP是AI領(lǐng)域最具挑戰(zhàn)的賽道之一,其目的是使得計(jì)算機(jī)具備人類的聽(tīng)、說(shuō)、讀、寫等能力,并利用知識(shí)和常識(shí)進(jìn)行推理和決策。
小布助手發(fā)布于2019年,到2021年底,它已經(jīng)累計(jì)搭載2.5 億設(shè)備,月活用戶數(shù)突破1.3 億,月交互次數(shù)達(dá)20 億,成為國(guó)內(nèi)首個(gè)月活用戶數(shù)破億的手機(jī)語(yǔ)音助手,一躍成為國(guó)內(nèi)新一代智能助手的代表。
在NLP技術(shù)方面,小布助手經(jīng)歷了從規(guī)則引擎、簡(jiǎn)單模型到強(qiáng)深度學(xué)習(xí),再到預(yù)訓(xùn)練模型幾個(gè)階段。歷經(jīng)3年的發(fā)展,小布助手在NLP技術(shù)領(lǐng)域已達(dá)到行業(yè)領(lǐng)先水平,此次OBERT位列CLUE 1.1總榜前五、KgCLUE 1.0排行榜榜首,便是小布助手技術(shù)沉淀與積累的最好力證。
登榜CLUE 1.1總榜并登頂KgCLUE 1.0排行榜,主要得益于三個(gè)方面:一是利用小布助手積累的海量數(shù)據(jù),獲得口語(yǔ)化的語(yǔ)言數(shù)據(jù),促進(jìn)算法模型對(duì)智能助手場(chǎng)景的語(yǔ)言有更好的理解;二是保持著開(kāi)放的成長(zhǎng)型心態(tài),跟進(jìn)學(xué)術(shù)界和工業(yè)界最新的進(jìn)展并加以實(shí)踐;三是堅(jiān)定地在最新預(yù)訓(xùn)練模型方向進(jìn)行投入,一點(diǎn)一點(diǎn)地去做技術(shù)積累,一次一次地探索落地應(yīng)用。
未來(lái),小布助手團(tuán)隊(duì)會(huì)結(jié)合智能助手場(chǎng)景特點(diǎn),持續(xù)優(yōu)化預(yù)訓(xùn)練技術(shù),深耕NLP,利用模型輕量化等技術(shù)加速大模型落地,并持續(xù)探索AI與主動(dòng)情感的結(jié)合,讓智能更人性化,在萬(wàn)物互融的時(shí)代,助力推動(dòng)AI大放異彩,幫助AI潤(rùn)物細(xì)無(wú)聲地融入人們未來(lái)的數(shù)智生活。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?