亚洲日韩大秀一区在线,久久一区视频,亚洲a∨永久无码精品一区二区

谷歌公布新研究BiT探索大規(guī)模數(shù)據(jù)如何影響預(yù)訓(xùn)練模型性能

2020-05-28 11:28

遷移學(xué)習(xí)

基于構(gòu)建BERT過程中的方法，研究人員將BiT模型在一系列下游任務(wù)上進(jìn)行調(diào)優(yōu)，而在調(diào)優(yōu)的過程中只使用了非常有限的數(shù)據(jù)。由于預(yù)訓(xùn)練模型已經(jīng)對(duì)視覺特征有著良好的理解，這種簡單的策略已經(jīng)能夠取得非常優(yōu)異的結(jié)果。

模型調(diào)優(yōu)的過程涉及一系列超參數(shù)的選擇，包括學(xué)習(xí)率、權(quán)重衰減參數(shù)等等。在這篇文章中提出了一種啟發(fā)式的超參數(shù)選擇方法“BiT－HyperRule”，它僅僅依賴高層次的數(shù)據(jù)集特征，包括圖像分辨率和標(biāo)簽數(shù)量等。這種方法成功地應(yīng)用到了從自然圖像到醫(yī)學(xué)影像等超過20個(gè)不同的任務(wù)上。

當(dāng)BiT模型訓(xùn)練完成后，它可以使用少量數(shù)據(jù)調(diào)優(yōu)就可以應(yīng)用到其他的視覺任務(wù)上。

當(dāng)利用非常少的樣本對(duì)BiT進(jìn)行遷移學(xué)習(xí)時(shí)，研究人員發(fā)現(xiàn)隨著預(yù)訓(xùn)練過程中使用的數(shù)據(jù)量和架構(gòu)容量的增加，所得到遷移后的模型性能也在顯著增加。當(dāng)在較小數(shù)據(jù)集ILSVRC上增加模型容量時(shí)，1－shot和5－shot情況下遷移CIFAR得到的增益都較小（下圖中綠線）。而在大規(guī)模的JFT數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí)，模型容量增加會(huì)帶來顯著的增益（紅棕色線所示），BiT－L可以在單樣本和五樣本上達(dá)到64％和95％的精度。

曲線描繪了五次平均運(yùn)行后模型遷移到CIRAR－10數(shù)據(jù)集上的平均精度。不同架構(gòu)的性能曲線表明，在大數(shù)據(jù)集上的容量更大的架構(gòu)具有更為顯著的數(shù)據(jù)效率。

為了進(jìn)行更為廣泛的驗(yàn)證，研究人員還在BTAB－1k上驗(yàn)證了BiT的性能，其中包含了19個(gè)不同的獨(dú)立任務(wù)，每個(gè)任務(wù)包含1000個(gè)標(biāo)注樣本。通過將BiT－L遷移到這些任務(wù)上，達(dá)到了76．3％的整體分?jǐn)?shù)，比先前最好的方法提高了5．8％。

下表展示了這種大規(guī)模預(yù)訓(xùn)練和簡單遷移學(xué)習(xí)的有效性，即使是在數(shù)據(jù)量有限的情況下也得到了最好或接近最好的結(jié)果。BiT即使作RetinaNet的主干網(wǎng)絡(luò)在COCO數(shù)據(jù)集上進(jìn)行結(jié)構(gòu)化的檢測任務(wù)，這種大規(guī)模的預(yù)訓(xùn)練也能帶來顯著的性能提升。

左側(cè)顯示了BiT－L在不同的標(biāo)準(zhǔn)視覺任務(wù)上取得的優(yōu)異結(jié)果。右側(cè)展示了在目標(biāo)檢測任務(wù)的遷移性能。

值得一提的是，在所有這些遷移任務(wù)上都沒有使用特殊的調(diào)參技巧，全部基于BiT－HyperRule來進(jìn)行調(diào)參，在充分的數(shù)據(jù)集上進(jìn)行調(diào)參甚至可以得到更好的結(jié)果。

ObjectNet上的測評(píng)

為了在更具挑戰(zhàn)的場景下驗(yàn)證BiT的性能，研究人員在最近提出的ObjectNet數(shù)據(jù)集上進(jìn)行了驗(yàn)證，這一模型更為接近真實(shí)場景，同時(shí)具有非典型的內(nèi)容、視角和旋轉(zhuǎn)等。受益于更大的數(shù)據(jù)和架構(gòu)容量，BiT－L在這一任務(wù)上取得了令人矚目的成就，實(shí)現(xiàn)了高達(dá)80％的top－5精度，超出先前最先進(jìn)方法近25個(gè)百分點(diǎn)！

BiT在ObjectNet上的評(píng)測結(jié)果，左側(cè)為top5精度右側(cè)為top1精度。

結(jié) 語

本研究發(fā)現(xiàn)在大規(guī)模通用數(shù)據(jù)的訓(xùn)練下，簡單的遷移策略就可以達(dá)到令人矚目的成果，無論是基于大數(shù)據(jù)還是小樣本數(shù)據(jù)甚至單樣本數(shù)據(jù)，通過大規(guī)模預(yù)訓(xùn)練的模型在下游任務(wù)中都能取得顯著的性能提升。BiT預(yù)訓(xùn)練模型將為視覺研究人員提供代替ImageNet預(yù)訓(xùn)練模型的全新選擇。

<上一頁 1 2