預(yù)訓(xùn)練大模型最新統(tǒng)一范式
本文重點(diǎn)要講的這篇論文是:
·Unifying Language Learning Paradigms
·2022年5月
·構(gòu)建一種獨(dú)立于模型架構(gòu)以及下游任務(wù)類(lèi)型的預(yù)訓(xùn)練策略,可以統(tǒng)一的靈活地適配不同類(lèi)型的下游任務(wù)
·architecture-agnostic、task-agnostic
·也就是說(shuō),作者們提出的是一套統(tǒng)一框架/方法論,可以適用于任何一個(gè)task。
這篇文章放出后引出了不小的水花,可以說(shuō)是LM領(lǐng)域的一個(gè)重磅炸彈
·一部分學(xué)者對(duì)這篇文章的態(tài)度是「好哇,終于大統(tǒng)一了,開(kāi)啟了PLM新紀(jì)元了吧,以后用起來(lái)也更方便了」
·另一部分學(xué)者對(duì)這篇文章的態(tài)度是「天吶,大統(tǒng)一了,這不是斷了大家的路了,別人還怎么玩呀」
這篇文章可以概括為是「預(yù)訓(xùn)練模型訓(xùn)練范式的統(tǒng)一」
·有、東西,值得一講
其實(shí)在本篇文章出現(xiàn)之前,業(yè)界就已經(jīng)有很多工作在或多或少的研究模型結(jié)構(gòu)/任務(wù)統(tǒng)一的問(wèn)題了
·所以本次分享同時(shí)會(huì)帶大家對(duì)這些前人工作進(jìn)行簡(jiǎn)單的回顧,因此前半部分可能會(huì)有一些像綜述,但我們的重點(diǎn)還是會(huì)放在這篇文章上。
目錄
大模型現(xiàn)存問(wèn)題
大模型統(tǒng)一趨勢(shì)
前人工作:Overview
本篇文章:UL2:統(tǒng)一的語(yǔ)言模型范式
參考文獻(xiàn)
背景
大模型現(xiàn)存問(wèn)題
各種各樣的模型
“不完全展示”
各種各樣的范式
PLM Structure
·decoder-only(如GPT)
·encoder-only(如BERT)
·encoder-decoder(如T5)
Pre-train Paradigms
·language model(單向文本建模的 CausalLM,如GPT)
·span corruption(雙向文本建模,如Bert、T5)
·prefix learning(前綴文本建模的 PrefixLM,如UniLM)
Learning Paradigms
·supervised NLP tasks
·in-context learning /few-shot
·Zero-Shot
Task
·language generation
·language understanding
otext classification
oquestion answering
·reasoning
ocommonsense reasoning
olong text reasoning
·structured knowledgegrounding(基于結(jié)構(gòu)化知識(shí)數(shù)據(jù)的任務(wù)可以統(tǒng)稱(chēng)為 StructuredKnowledgeGrounding (SKG))
·information retrieval
【task-specific LM】
需要根據(jù)下游任務(wù)類(lèi)型選用特定的預(yù)訓(xùn)練范式/策略
目前大家依舊在延續(xù)根據(jù)任務(wù)選擇PLM的習(xí)慣,比如:
·生成任務(wù):AR/ encoder-decoder / decoder-only /(language model)
·判別任務(wù):AE/ encoder /(span corruption)
不同的范式建模了不同的上下文關(guān)系,也正是因?yàn)槿绱,不同的預(yù)訓(xùn)練范式適配不同類(lèi)型的下游任務(wù)。
·也就是說(shuō),具體的下游任務(wù)類(lèi)型需要選用特定的預(yù)訓(xùn)練策略。
·LM : -> task-specificLM
·也就是說(shuō),我們?cè)?/strong>PLM的使用中,已經(jīng)潛移默化的把LM變成了task-specific的LM
比如
雖然前文展示的是一種基于經(jīng)驗(yàn)的面向task的模型選用方法,但是到目前為止,對(duì)于不同task如何選擇正確的architecture和pre-training策略(自監(jiān)督目標(biāo)),似乎仍然沒(méi)有達(dá)成共識(shí)。
這就引發(fā)了一種思考:
··為什么“ pre-trained LM的選擇要取決于下游的任務(wù)?”
··我們能不能,以及 “如何能在許多任務(wù)中普遍有效的預(yù)訓(xùn)練模型?”
缺點(diǎn)&問(wèn)題
問(wèn)題:
·PLM的選擇,在一定程度上牽制了研究者的精力和資源;
·而且,在應(yīng)用場(chǎng)景上也會(huì)受硬件環(huán)境限制,為不同的下游任務(wù)部署特定的模型,是一個(gè)很消耗資源的方式。
因此,「一個(gè)統(tǒng)一的大模型」是必然的。
·研究:集中精力改進(jìn)和擴(kuò)展單個(gè)模型,而不是在 N 個(gè)模型上分散資源。
·應(yīng)用:在資源受限的環(huán)境下,有一個(gè)可以在多種任務(wù)上表現(xiàn)良好的預(yù)訓(xùn)練模型。
大模型統(tǒng)一趨勢(shì)
在這種背景下,「模型大一統(tǒng)」是趨勢(shì)
·其最終目的都是為了面對(duì)不同的任務(wù)時(shí),能夠使用統(tǒng)一的PLM,不再被PLM架構(gòu)/訓(xùn)練策略的選擇牽制精力/資源
·task-specific LM ->Task-Agnostic LM
o(Agnostic:無(wú)感知的,不被牽制的)
·所謂Task-Agnostic 包括
oTask-Agnostic 的 PLM Structure
§•decoder-only
§•encoder-decoder
oTask-Agnostic 的 Pre-train Paradigms
§·language model
§·span corruption
§·prefix learning
優(yōu)點(diǎn)&好處
通用模型的優(yōu)勢(shì)是顯而易見(jiàn)的
·有了通用模型,研究者就可以集中精力改進(jìn)和擴(kuò)展單個(gè)模型,而不是在 N 個(gè)模型上分散資源。
·此外,在只能為少數(shù)模型提供資源的受限環(huán)境下,最好有一個(gè)可以在多種任務(wù)上表現(xiàn)良好的預(yù)訓(xùn)練模型。
前人工作
我們也在近些年的論文中看到了一種未來(lái)趨勢(shì):模型大一統(tǒng)「Unified」,目前的論文中的統(tǒng)一可以概括為以下兩種角度:
·結(jié)構(gòu)統(tǒng)一:通過(guò)一些對(duì)PLM結(jié)構(gòu)或策略的改動(dòng),統(tǒng)一不同PLM結(jié)構(gòu)的優(yōu)點(diǎn),規(guī)避缺點(diǎn)問(wèn)題,如XLNet
·任務(wù)統(tǒng)一:改變PLM結(jié)構(gòu)或任務(wù)表示(multi-task learning),使一種模型具備處理多種不同任務(wù)的能力,如T5
·模態(tài)統(tǒng)一:同時(shí)進(jìn)行單模態(tài)和多模態(tài)的內(nèi)容理解和生成任務(wù),如Unimo(已有的預(yù)訓(xùn)練模型主要是單獨(dú)地針對(duì)單模態(tài)或者多模態(tài)任務(wù),但是無(wú)法很好地同時(shí)適應(yīng)兩類(lèi)任務(wù)。同時(shí),對(duì)于多模態(tài)任務(wù),目前的預(yù)訓(xùn)練模型只能在非常有限的多模態(tài)數(shù)據(jù)(圖像-文本對(duì))上進(jìn)行訓(xùn)練。)
我們首先回顧一下近幾年來(lái)的幾個(gè)相關(guān)論文,這些論文大家都比較熟悉了,這里就帶大家從另一個(gè)角度簡(jiǎn)單回顧一下。
·簡(jiǎn)單回顧這幾個(gè)模型的原因,
o一是:因?yàn)樗麄兇_實(shí)在模型統(tǒng)一上做了一些工作并且效果也是很好的,
o二是:雖然這幾篇工作在完成一些模型統(tǒng)一的事情,但卻都并沒(méi)有站在一個(gè)相對(duì)比較高的角度對(duì)現(xiàn)有“大模型們”進(jìn)行完全的統(tǒng)一。
模型
作者
思想
模型架構(gòu)
預(yù)訓(xùn)練策略
任務(wù)類(lèi)型
XLNet
MS2019
融合AR/AE兩類(lèi)模型的優(yōu)點(diǎn),解決BERT中pretrain和finetune階段mask存在不一致的問(wèn)題
基于bert的encoder-only
提出 Permuted Language Modeling
主要做理解任務(wù)
MPNet
MS2022
繼承了MLM和PLM的優(yōu)點(diǎn),避免了它們的局限性
基于bert的encoder-only
采用Permutaion language modeling
主要做理解任務(wù)
MASS
MS2019
整合了transformer的Encoder和Decoder部分,相當(dāng)于BERT和GPT的結(jié)合體
encoder-decoder
與bert-mask一樣,加大mask為句子長(zhǎng)度的0.5,decoder時(shí)進(jìn)行預(yù)測(cè)
主要做生成任務(wù)
BART
Facebook2019
提出了一個(gè)結(jié)合雙向LM和自回歸LM的預(yù)訓(xùn)練模型
encoder-decoder
不同于MASS的是,BART對(duì)decoder沒(méi)有進(jìn)行改變。
理解任務(wù)/生成任務(wù)
UniLM
MS2019
調(diào)整不同的attention mask,實(shí)現(xiàn)NLU與NLG的統(tǒng)一預(yù)訓(xùn)練模型
基于bert的encoder-only
提出Prefix LM使用3種語(yǔ)言模型優(yōu)化目標(biāo)
理解任務(wù)/生成任務(wù)
T5
MS2019
把所有任務(wù)都轉(zhuǎn)化成Text-to-Text任務(wù)
encoder-decoder
通過(guò)大量實(shí)驗(yàn)最終選出corruption rate
理解任務(wù)/生成任務(wù)
XLNet、MPNet
XLNet、MPNet采用Permutaion languagemodeling,兼顧上下文與自回歸,融合兩者優(yōu)點(diǎn),避免局限性。
XLNet
·2019.06
·arxiv.org/abs/1906.0823...
做法
·針對(duì)AE與AR的優(yōu)缺點(diǎn):
oAE能夠看到上下文但忽略了[Mask]之間的相關(guān)性
oAR天然的適合生成任務(wù)但只能看到單向信息
·提出了PLM
oPermutaion languagemodeling:一個(gè)序列隨機(jī)換位方法,并以自回歸的方式預(yù)測(cè)右邊部分(predictedpart)的token
o融合了AR模型(類(lèi)GPT,ELMo)和AE模型各自的優(yōu)點(diǎn),既能建模概率密度,適用于文本生成類(lèi)任務(wù),又能充分使用雙向上下文信息。
·XLNet實(shí)現(xiàn)AR和AE融合的主要思路為,對(duì)輸入文本進(jìn)行排列組合,然后對(duì)于每個(gè)排列組合使用AR的方式訓(xùn)練,不同排列組合使每個(gè)token都能和其他token進(jìn)行信息交互,同時(shí)每次訓(xùn)練又都是AR的。
優(yōu)點(diǎn):
·融合了BERT和GPT這兩類(lèi)預(yù)訓(xùn)練語(yǔ)言模型的優(yōu)點(diǎn),
·并且解決了BERT中pretrain和finetune階段存在不一致的問(wèn)題(pretrain階段添加mask標(biāo)記,finetune過(guò)程并沒(méi)有mask標(biāo)記)
MPNet
·2020.04
·arxiv.org/abs/2004.0929...
·針對(duì)MLM和PLM的優(yōu)缺點(diǎn):
oMLM可以看到全句的位置信息,但不能對(duì)預(yù)測(cè)token之間的依賴(lài)關(guān)系進(jìn)行建模,不能很好地學(xué)習(xí)復(fù)雜的語(yǔ)義關(guān)系;
oPLM可以通過(guò)自回歸預(yù)測(cè)對(duì)predicted tokens之間的依賴(lài)關(guān)系進(jìn)行建模,但不能看到全句的位置信息,由于在下游任務(wù)中可以看到全句的位置信息,會(huì)造成預(yù)訓(xùn)練和微調(diào)的不匹配。
·為了繼承了MLM和PLM的優(yōu)點(diǎn),避免它們的局限性
基于bert的encoder-only結(jié)構(gòu),對(duì)預(yù)訓(xùn)練的目標(biāo)進(jìn)行改動(dòng)
這兩個(gè)任務(wù)雖然在努力的融合不同LM,但是他們的重點(diǎn)依然在LM結(jié)構(gòu)的優(yōu)化上(融合現(xiàn)有結(jié)構(gòu)的優(yōu)點(diǎn)&規(guī)避缺點(diǎn)),并非在統(tǒng)一不同任務(wù)對(duì)應(yīng)的PLM上。
MASS、BART
·MASS:ICML 2019
·BART:ACL2020
BART
·提出了一種新的預(yù)訓(xùn)練范式,包括兩個(gè)階段:首先原文本使用某種noise function進(jìn)行破壞,然后使用sequence-to-sequence模型還原原始的輸入文本。
·下圖中左側(cè)為Bert的訓(xùn)練方式,中間為GPT的訓(xùn)練方式,右側(cè)為BART的訓(xùn)練方式。
·首先,將原始輸入文本使用某些noise function,得到被破壞的文本。這個(gè)文本會(huì)輸入到類(lèi)似Bert的Encoder中。在得到被破壞文本的編碼后,使用一個(gè)類(lèi)似GPT的結(jié)構(gòu),采用自回歸的方式還原出被破壞之前的文本。
MASS專(zhuān)注于生成任務(wù),BART在保證理解任務(wù)性能的前提下,生成任務(wù)的結(jié)果也得到提升。
·總體來(lái)看,這兩個(gè)模型有相似也有不同,MASK的方式對(duì)預(yù)訓(xùn)練模型的結(jié)果影響很大。
·BART和MASS對(duì)生成任務(wù)的效果都有提升。
基于Transformer的encoder-decoder結(jié)構(gòu),對(duì)encoder的mask方式進(jìn)行改動(dòng)
主要貢獻(xiàn):BART提出了一個(gè)結(jié)合雙向LM和自回歸LM的預(yù)訓(xùn)練模型。
但其僅僅將「雙向如BERT」與「自回歸如GPT」結(jié)合在一起,而PLM的范式除此之外還有單向LM (left2right/right2left/left2right+right2left如ELMO等)。
并不能稱(chēng)作「統(tǒng)一」。
UniLM(•結(jié)構(gòu)統(tǒng)一)
UniLM是一種BERT-based的生成模型
·NeurIPS2019
·arxiv.org/abs/1905.0319...
本文提出了采用BERT的模型,使用三種特殊的Mask的預(yù)訓(xùn)練目標(biāo),從而使得模型可以用于NLG,同時(shí)在NLU任務(wù)獲得和BERT一樣的效果。模型使用了三種語(yǔ)言模型的任務(wù):
·unidirectional prediction
·bidirectional prediction
·seuqnece-to-sequenceprediction
認(rèn)為EMLo采用前向+后向LSTM、GPT采從左至右的單向Transformer、BERT采用雙向Attention都有優(yōu)缺點(diǎn)。
·融合了3種語(yǔ)言模型優(yōu)化目標(biāo),通過(guò)控制mask在一個(gè)模型中同時(shí)實(shí)現(xiàn)了3種語(yǔ)言模型優(yōu)化任務(wù),在pretrain過(guò)程交替使用3種優(yōu)化目標(biāo)。
·三種:unidirectional(left2right/right2left)/seq2seq/bidiectional
·采用的Multi-tasktraining,
基于bert的encoder-only結(jié)構(gòu),使用三種特殊的Mask的預(yù)訓(xùn)練目標(biāo)控制attention,使得3種類(lèi)型可以存在于同一個(gè)LM 中,并可以同時(shí)訓(xùn)練。從而使得模型可以用于NLG,同時(shí)在NLU任務(wù)獲得和BERT一樣的效果。
核心思路是利用mask控制生成每個(gè)token時(shí)考慮哪些上下文的信息。
相對(duì)上面的幾篇文章來(lái)說(shuō),個(gè)人認(rèn)為UniLM可以算是LM的「小」統(tǒng)一 ♂?(把不同的優(yōu)化目標(biāo)統(tǒng)一在同一個(gè)LM中)。
T5(•任務(wù)統(tǒng)一)
arxiv.org/abs/1910.1068...
本文的重要貢獻(xiàn)
·以一種統(tǒng)一的思想研究PLM,并用了大量實(shí)驗(yàn)來(lái)驗(yàn)證效果。把所有的NLP問(wèn)題都可以定義成“text-to-text”問(wèn)題,即“輸入text,輸出text,一個(gè)模型干所有”。(還得是有錢(qián))
·順便貢獻(xiàn)了個(gè)語(yǔ)料庫(kù)C4(Colossal Clean Crawled Corpus)
下游任務(wù)
·machine translation:WMT English to German, French, and Romanian translation
·question answering:SQuAD
·abstractive summarization:CNN/Daily Mail
·text classification:GLUE and SuperGLUE
三種Model structures:Encoder-decoder、Language model、Prefix LM
·代表分別有 MASS(BERT 可以看作是其中 Encoder 部分)/ GPT2 / UniLM
·在同一種模型結(jié)構(gòu)下,這三種架構(gòu)依舊是通過(guò)注意力機(jī)制的 Mask 控制
·其實(shí)就是介紹了三種attention mask:
·Fully-visible(transformer的encoder那種mask),BERT-style
·Causal(transformer的decoder那種mask),LM,GPT-style
·Causal with prefix(前兩種的結(jié)合,前半段是fully-visible,后半段是causal)。
·在同樣運(yùn)算復(fù)雜度的情況下,Encoder-decoder結(jié)構(gòu)的參數(shù)量是其他結(jié)構(gòu)的兩倍左右。
三種Unsupervised objectives:
·LM(GPT從左到右)/BERT-style(denoising還原)/Deshuffing(XLNet文本打亂還原) -> BERT(Table4)
·BERT-style 的三種 variant 中 span wins。═able 5)
·corruption rate 15% wins。═able 6)
·Results:Encoder-decoder配合denoisingobjective達(dá)到了最好的效果。詳見(jiàn)原文Table 2。
T5這篇論文如果只從技術(shù)上來(lái)講,他其實(shí)是沒(méi)有太多的idea創(chuàng)新的,但他的一個(gè)重要作用在:將NLP 任務(wù)都轉(zhuǎn)換成 Text-to-Text 形式,然后使用同樣的模型,同樣的損失函數(shù),同樣的訓(xùn)練過(guò)程,同樣的解碼過(guò)程來(lái)完成所有 NLP 任務(wù)。
可以簡(jiǎn)單概括為:
·基于標(biāo)準(zhǔn)encoder-decoderTransformer結(jié)構(gòu)(在不同的具體任務(wù)上有不同的prefix指導(dǎo)模型),對(duì)預(yù)訓(xùn)練目標(biāo)進(jìn)行大范圍探索,(類(lèi)似這樣的大型實(shí)驗(yàn)探索論文也有一些:首先提出一個(gè)通用框架,接著進(jìn)行了各種比對(duì)實(shí)驗(yàn))最后獲得一套建議參數(shù),最后得到一個(gè)很強(qiáng)的 baseline。而我們之后做這方面實(shí)驗(yàn)就能參考它的一套參數(shù)。
T5通過(guò)提出一套通用方法并進(jìn)行大量實(shí)驗(yàn),確實(shí)提出了一套統(tǒng)一的大模型結(jié)構(gòu)(大量實(shí)驗(yàn)下的到的一套經(jīng)驗(yàn)參數(shù)以及一個(gè) baseline:denoising+replacespan+corruption rate 15%)。
但是,這一套參數(shù)一定就比其他的參數(shù)要好呢?在任何情況下都適用嗎?
我們追求的「模型大一統(tǒng)」應(yīng)該不僅僅是使用「同樣的模型,同樣的損失函數(shù),同樣的訓(xùn)練過(guò)程,同樣的解碼過(guò)程」就可以,而是統(tǒng)一的模型/損失函數(shù)/訓(xùn)練目標(biāo)/解碼過(guò)程是真的具備解決各類(lèi)任務(wù)(生成/理解/推理等)的能力或者可以靈活適配。
重點(diǎn)比較:T5 & UniLM & UL2
前面都比較好理解
但在講UL2這篇文章之前,大家會(huì)覺(jué)得T5(那么多的實(shí)驗(yàn),那么多的),UniLM也貌似統(tǒng)一了NLU和NLG。
他們或許都已經(jīng)足夠“統(tǒng)一”了,那為什么還需要UL2呢?
其實(shí)他們還是有很大不同的,所以這里先提前提及一下他們的區(qū)別:
·T5:將 NLP 任務(wù)都轉(zhuǎn)換成 Text-to-Text 形式,然后使用同樣的模型(encoder-decoder),同樣的損失函數(shù),同樣的訓(xùn)練過(guò)程,同樣的解碼過(guò)程來(lái)完成所有 NLP 任務(wù)。
·UniLM:通過(guò)控制mask在一個(gè)模型中同時(shí)實(shí)現(xiàn)3種語(yǔ)言模型優(yōu)化任務(wù),使encoder-only模型可以同時(shí)完成NLG任務(wù)。
·UL2:構(gòu)建一種 獨(dú)立于模型架構(gòu) 以及 下游任務(wù)類(lèi)型 的預(yù)訓(xùn)練策略(自監(jiān)督目標(biāo)),可以靈活地適配不同類(lèi)型的下游任務(wù)。
·【從這里看起來(lái),UL2工作的落點(diǎn)是要比現(xiàn)有的這些工作更高的,并且分離了arch和pretrain-obj】
模型結(jié)構(gòu)
預(yù)訓(xùn)練策略(自監(jiān)督目標(biāo))
T5
encoder-decoder
在各種現(xiàn)有策略中實(shí)驗(yàn),最終選定表現(xiàn)最好的策略為span corruption
UniLM
Encoder-only
BERT模型+三種特殊的Mask的預(yù)訓(xùn)練目標(biāo),使得模型可以用于NLG,同時(shí)在NLU任務(wù)獲得和BERT一樣的效果。
UL2
普遍適配
提出Mixture-of-Denoisers (MoD)融合了Prefix LM/span corruption/CLM不同的模型能力
然后我們?cè)賮?lái)展開(kāi)講一下這篇論文
UL2(該論文所提出的方法叫法)
2022年5月,Google提出一種“無(wú)關(guān)architecture”“無(wú)關(guān)task”的預(yù)訓(xùn)練策略,即,此策略無(wú)論什么PLM architecture 什么task 都可以靈活適配。
·architecture-agnostic
·task-agnostic
論文:Unifying Language Learning Paradigms
·arxiv.org/pdf/2205.0513
·zhuanlan.zhihu.com/p/51
·也就是說(shuō),作者們提出的是一套框架(方法論),可以適用于任何一個(gè)task,并且可以適配任何architecture。
趨勢(shì)及問(wèn)題
通過(guò)前面的介紹,我們可以看出,其實(shí)從UniLM、T5甚至更早,大模型統(tǒng)一的趨勢(shì)已經(jīng)非常清晰明了,
但由于上述問(wèn)題,我們還是沒(méi)辦法心甘情愿的稱(chēng)之為「模型大一統(tǒng)」(不再依賴(lài)任務(wù)選擇PLM)。
論文講解
跳轉(zhuǎn):
*重點(diǎn)在此*
本文內(nèi)容有點(diǎn)多了,關(guān)于這篇論文的細(xì)節(jié),打算再開(kāi)一篇文章細(xì)寫(xiě)
占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑占坑
總結(jié)
本文貢獻(xiàn)「邁向建立普遍適用的語(yǔ)言模型的一步」
•將architectural archetypes與pre-training目標(biāo)分開(kāi)
•預(yù)訓(xùn)練策略比預(yù)訓(xùn)練架構(gòu)更重要(這兩個(gè)概念通常是合并在一起的)
•提出了一個(gè)pre-training目標(biāo):Mixture-of-Denoisers(MoD)
•提出了一個(gè)廣義統(tǒng)一的NLP自監(jiān)督視角,通過(guò)不同的pre-training目標(biāo)相互轉(zhuǎn)換,將不同的pre-trainingparadigms結(jié)合在一起
•引入了模式切換的概念
•其中下游fine-tuning與特定的pre-training schemes相關(guān)。
•最后,通過(guò)將模型擴(kuò)展到20B參數(shù),在50個(gè)已建立的監(jiān)督NLP任務(wù)上實(shí)現(xiàn)了SOTA性能
•這些任務(wù)包括語(yǔ)言生成(帶有自動(dòng)化和人工評(píng)估)、語(yǔ)言理解、文本分類(lèi)、問(wèn)題回答、常識(shí)推理、長(zhǎng)文本推理、結(jié)構(gòu)化知識(shí)基礎(chǔ)和信息檢索。
總結(jié)&思考&工作啟發(fā)
本文UL2的重點(diǎn)在:
·「提出一種“無(wú)關(guān)architecture”“無(wú)關(guān)task”的預(yù)訓(xùn)練策略,即使用此策略訓(xùn)好的PLM無(wú)論什么architecture什么task都可以靈活適配」
·即:不需要再根據(jù)任務(wù)去選擇 architecture 及預(yù)訓(xùn)練策略(自監(jiān)督目標(biāo))
·architecture-agnostic& task-agnostic
在解決 task-specific LM 的問(wèn)題上,還有一種常用做法:Massive Multi-tasking
·后Prompt的產(chǎn)物,Fintune范式+Prompt范式的綜合體
·重點(diǎn)在:對(duì)下游任務(wù)形成拿來(lái)即用的模型,可直接進(jìn)行zero-shot測(cè)試,也可進(jìn)一步提升few-shot性能。
·是統(tǒng)一場(chǎng)景下的解決方案之一
·更多推薦閱讀:zhuanlan.zhihu.com/p/46...
參考文獻(xiàn)
論文
·Unified Language ModelPre-training for Natural Language Understanding and Generation
·GeneralizedAutoregressive Pretraining for Language Understanding
·DenoisingSequence-to-Sequence Pre-training for Natural Language Generation, Translation,and Comprehension
·Unifying LanguageLearning Paradigms
博客
·https://zhuanlan.zhihu.com/p/513800476
·https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650845731&idx=1&sn=24617480239384699ed9ab91da561739&chksm=84e5765db392ff4b2608d4c9726c9403ababd30dff2e5225e8731c05efe1523f8d4631317236&mpshare=1&scene=1&srcid=0515lVkpTYBe5aJHZkEZF3t7&sharer_sharetime=1652546097545&sharer_shareid=12c0d348dc52e0610c03a370c1241fe3&version=4.0.0.6007&platform=win#rd
·https://zhuanlan.zhihu.com/p/501841063
·https://zhuanlan.zhihu.com/p/482465145
·https://zhuanlan.zhihu.com/p/386470305
·https://zhuanlan.zhihu.com/p/465130047
·https://zhuanlan.zhihu.com/p/89719631
·https://zhuanlan.zhihu.com/p/88377084
·http://www.360doc.com/content/22/0110/07/7673502_1012609753.shtml
原文標(biāo)題 : 預(yù)訓(xùn)練大模型最新統(tǒng)一范式

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?