極鏈科技HPAIC人類(lèi)蛋白質(zhì)圖譜分類(lèi)挑戰(zhàn)賽金牌經(jīng)驗(yàn)分享
模型
我們最終使用的基礎(chǔ)模型有Inceptionv3,Inceptionv4以及Xception三種,比賽前期我們測(cè)試了VGG,ResNet,ResNext,SeNet,但是效果不是很好,因此比賽末期沒(méi)有再進(jìn)行進(jìn)一步測(cè)試。
我們使用了512,650和800三種尺度來(lái)增加網(wǎng)絡(luò)對(duì)圖像的理解,另外每個(gè)尺度進(jìn)行10折交叉驗(yàn)證,保證驗(yàn)證集的劃分對(duì)網(wǎng)絡(luò)整體的影響,以及用驗(yàn)證集來(lái)評(píng)估模型預(yù)測(cè)的好壞和選擇模型及其對(duì)應(yīng)的參數(shù)。不同模型交叉驗(yàn)證時(shí)使用不同的隨機(jī)種子劃分驗(yàn)證集和訓(xùn)練集,以盡可能多的學(xué)到不同的樣本組合。
Inceptionv3和Inceptionv4的512的結(jié)果不好(0.55+ public leaderboard 閾值0.15),因此沒(méi)有做交叉驗(yàn)證,只是用512尺度訓(xùn)練了基礎(chǔ)模型,并用在650和800的微調(diào)中。
模型修改:
1.第一層卷積的輸入通道數(shù)由3修改為4,保持其他卷積參數(shù)不變,從而使網(wǎng)絡(luò)應(yīng)對(duì)4通道輸入;
2.修改最后一的池化層為全局池化層,保證在多尺度時(shí)可以使用同一個(gè)網(wǎng)絡(luò);
3.全局池化后增加一層128的全連接,然后接一層28的全連接。
訓(xùn)練
訓(xùn)練過(guò)程的參數(shù)如下:
loss: MultiLabelSoftMarginLoss
lr: 0.05(512,imagenet 預(yù)訓(xùn)練),0.01(650和800,512預(yù)訓(xùn)練);
lrscheduler: steplr(gamma=0.1,step=6)
optimizer: SGD (adam,rms not well)
epochs: 25, 600和800一般在12-20直接提前結(jié)束,取loss最低的模型
10 folds CV
sampling weights:[1.0, 5.97, 2.89, 5.75, 4.64, 4.27, 5.46, 3.2, 14.48, 14.84, 15.14, 6.92, 6.86, 8.12, 6.32, 19.24, 8.48, 11.93, 7.32, 5.48, 11.99, 2.39, 6.3, 3.0, 12.06, 1.0, 10.39, 16.5]
scale:512,600,800
獨(dú)立閾值
為每一個(gè)類(lèi)別找到一個(gè)合適的閾值是一件很困難的事,但是多閾值是提升分?jǐn)?shù)的關(guān)鍵,對(duì)我來(lái)說(shuō),大概可以提升0.005~0.008。 我們使用驗(yàn)證集來(lái)找閾值,我們訓(xùn)練單模型xception 512 ,驗(yàn)證集占13%。調(diào)整每一類(lèi)的閾值使得f1 score達(dá)到最優(yōu),不過(guò)我們發(fā)現(xiàn)稀有類(lèi)別的閾值普遍很高,public lb會(huì)變差,因此我們只調(diào)整了驗(yàn)證集1000張以上的類(lèi)別,稀有類(lèi)別控制閾值為0.15 通過(guò)這種方法找到的閾值在其他模型或者集成的時(shí)候同樣有效。
測(cè)試
比賽結(jié)束以后我們將比賽中訓(xùn)練的模型重新提交查看private leaderboard成績(jī),得到如下結(jié)果:
比賽過(guò)程中我們發(fā)現(xiàn)做了10 fold ensemble不一定比single fold好,因此我們?cè)谧罱K集成的時(shí)候部分模型只選擇了部分fold (根據(jù)loss選擇)。
檢索
我們使用檢索的方法(特征使用inceptionv4 800 的128維特征)查找test與hpa相似的圖片,使用余弦相似度進(jìn)行度量,我們發(fā)現(xiàn)了許多相似的甚至相同的圖片,直接使用相似度最高的300張圖片的結(jié)果進(jìn)行替換,分?jǐn)?shù)在public lb上提升0.01~0.015,不過(guò)在private LB中并沒(méi)有效果,官方在比賽過(guò)程中也說(shuō)明部分test圖像由于與HPA中部分圖像重合,不再進(jìn)行分?jǐn)?shù)計(jì)算。
集成
我們將inceptionv3 inceptionv4以及xception 800的10fold 模型的特征進(jìn)行concat(先進(jìn)行l(wèi)2),得到3840維的新特征,并在此基礎(chǔ)上設(shè)計(jì)了2層的全連接網(wǎng)絡(luò)進(jìn)行訓(xùn)練, 并做10 fold CV,訓(xùn)練過(guò)程中使用不容參數(shù)訓(xùn)練過(guò)程如圖所示,我們?nèi)×薼oss最低的參數(shù)。結(jié)果融合后private lb:0.55150 public lb:0.62791。
雖然上面方法在public lb上分?jǐn)?shù)較高,但是當(dāng)與其他模型結(jié)果融合時(shí),public LB的分?jǐn)?shù)反而降了,因此我們降低了這個(gè)模型的權(quán)重。
最后的結(jié)果是通過(guò)加權(quán)融合的方式得到的,權(quán)重根據(jù)模型的public lb分?jǐn)?shù)設(shè)置, inceptionv4 800和inceptionv3 800的權(quán)重最高,xception 650 最低,同時(shí)也用到了inceptionv4、xception其他尺度的部分fold。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?