国产在线精品福利一区二区三区 ,亚洲精品二区三区,高清无码毛片免费看

使用數(shù)據(jù)增強從頭開始訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（CNN）

2022-11-24 14:21

磐創(chuàng)AI

關(guān)注

介紹

該文致力于處理神經(jīng)網(wǎng)絡(luò)中的過度擬合。

過度擬合將是你主要擔(dān)心的問題，因為你僅使用 2000 個數(shù)據(jù)樣本訓(xùn)練模型。存在一些有助于克服過度擬合的方法，即 dropout 和權(quán)重衰減（L2 正則化）。

我們將討論數(shù)據(jù)增強，這是計算機視覺獨有的，在使用深度學(xué)習(xí)模型解釋圖像時，數(shù)據(jù)增強在任何地方都會用到。

數(shù)據(jù)增強

學(xué)習(xí)示例不足會阻止你訓(xùn)練可以泛化到新數(shù)據(jù)的模型，從而導(dǎo)致過度擬合。如果你有無限的數(shù)據(jù)，你的模型將暴露于當(dāng)前數(shù)據(jù)分布的所有特征，從而防止過度擬合。

通過增加具有不同隨機變化的樣本來產(chǎn)生逼真的圖像，數(shù)據(jù)增強使用現(xiàn)有的訓(xùn)練樣本來生成更多的訓(xùn)練數(shù)據(jù)。

你的模型不應(yīng)在訓(xùn)練期間兩次查看同一圖像。這使模型更加通用并暴露了數(shù)據(jù)的其他特征。

Keras 可以通過使用ImageDataGenerator函數(shù)定義要應(yīng)用于圖像的各種隨機變換來實現(xiàn)這一點。

讓我們從一個插圖開始。

＃＃＃＃－－－－－data augmentation configuration via ImageDataGenerator－－－－－－－＃＃＃＃

datagen ＝ ImageDataGenerator（

rotation＝40，

width＿shift＝0．2，

height＿shift＝0．2，

shear＝0．2，

zoom＝0．2，

horizontal＿flip＝True，

fill＿mode＝＇nearest＇）

讓我們快速回顧一下這段代碼：

· rotation：這是圖像隨機旋轉(zhuǎn)的范圍。它的容量在（0－180）度之間。

· width＿shift 和 height＿shift：范圍（作為總寬度或高度的一部分），在其中垂直或水平隨機翻轉(zhuǎn)圖片。

· shear：用于隨機應(yīng)用剪切變換。

· zoom：用于隨機縮放圖像。

· Horizontal＿flip ：用于隨機水平翻轉(zhuǎn)一半圖像

· fill＿mode：是用于填充新生成的像素的方法，這些像素可能在旋轉(zhuǎn)或?qū)挾龋叨茸兓蟪霈F(xiàn)。

顯示增強圖像

＃＃＃＃－－－－－Let＇s display some randomly augmented training images－－－－－－－＃＃＃＃

from keras．preprocessing import image

fnames ＝［os．path．join（train＿cats＿dir， fname） for fname in os．listdir（train＿cats＿dir）］

img＿path ＝ fnames［3］

img ＝ image．load＿img（img＿path， target＿size＝（150， 150））

x ＝ image．img＿to＿array（img）

x ＝ x．reshape（（1，）＋ x．shape）

i ＝ 0

for batch in datagen．flow（x， batch＿size＝1）：

plt．figure（i）

imgplot ＝ plt．imshow（image．a(chǎn)rray＿to＿img（batch［0］））

i ＋＝ 1

if i ％ 4 ＝＝ 0：

break

plt．show（）

圖：使用數(shù)據(jù)增強生成貓圖片

如果你使用數(shù)據(jù)增強設(shè)置訓(xùn)練新網(wǎng)絡(luò)，網(wǎng)絡(luò)將永遠不會收到兩次相同的輸入。

然而，因為它只接收來自少量原始照片的輸入，這些輸入仍然是高度相關(guān)的；你只能重新混合已經(jīng)存在的信息。

因此，這可能不足以消除過度擬合。在密集鏈接分類器之前，你應(yīng)該在算法中包含一個 Dropout 層，以進一步對抗過度擬合。

實時數(shù)據(jù)增強應(yīng)用

1．醫(yī)療保健

管理數(shù)據(jù)集不是醫(yī)學(xué)成像應(yīng)用的解決方案，因為獲取大量經(jīng)過專業(yè)標(biāo)記的樣本需要很長時間和金錢。

通過增強設(shè)計的網(wǎng)絡(luò)必須比類似 X 射線圖片中的預(yù)測變化更可靠和真實。但是，我們可以通過使用數(shù)據(jù)增強來增加后續(xù)插圖中的數(shù)據(jù)數(shù)量。

圖：X 射線圖像中的數(shù)據(jù)增強

2．自動駕駛汽車

自動駕駛汽車是一個不同的使用主題，其中數(shù)據(jù)增強是有益的。

例如，CARLA旨在在物理模擬中產(chǎn)生靈活性和真實感。CARLA 旨在促進自動駕駛系統(tǒng)的結(jié)果、指導(dǎo)和驗證。它基于虛幻引擎 4，并提供了一個完整的模擬器環(huán)境，用于在安全的環(huán)境中測試自動駕駛技術(shù)。

當(dāng)數(shù)據(jù)稀缺成為問題時，使用強化學(xué)習(xí)技術(shù)創(chuàng)建的模擬環(huán)境可以幫助人工智能系統(tǒng)的訓(xùn)練和測試。對模擬環(huán)境進行建模以創(chuàng)建真實場景的能力為數(shù)據(jù)增強開辟了一個充滿可能性的世界。

從頭開始定義 CNN 模型

＃＃＃＃－－－－－－Defining CNN， including dropout－－－－－－－－＃＃＃＃

model ＝ models．Sequential（）

model．a(chǎn)dd（layers．Conv2D（32，（3， 3）， activation＝＇relu＇， input＿shape＝（150， 150， 3）））

model．a(chǎn)dd（layers．MaxPooling2D（（2， 2）））

model．a(chǎn)dd（layers．Conv2D（64，（3， 3）， activation＝＇relu＇））

model．a(chǎn)dd（layers．MaxPooling2D（（2， 2）））

model．a(chǎn)dd（layers．Conv2D（128，（3， 3）， activation＝＇relu＇））

model．a(chǎn)dd（layers．MaxPooling2D（（2， 2）））

model．a(chǎn)dd（layers．Conv2D（128，（3， 3）， activation＝＇relu＇））

model．a(chǎn)dd（layers．MaxPooling2D（（2， 2）））

model．a(chǎn)dd（layers．Flatten（））

model．a(chǎn)dd（layers．Dropout（0．5））

model．a(chǎn)dd（layers．Dense（512， activation＝＇relu＇））

model．a(chǎn)dd（layers．Dense（1， activation＝＇sigmoid＇））

model．compile（loss＝＇binary＿crossentropy＇， optimizer＝optimizers．RMSprop（lr＝1e－4）， metrics＝［＇acc＇］）

讓我們使用數(shù)據(jù)增強和損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。

＃＃＃＃－－－－－－－Train CNN using data－augmentation－－－－－－－－＃＃＃＃＃

train＿datagen ＝ ImageDataGenerator（rescale＝1．／255， rotation＝40， width＿shift＝0．2， height＿shift＝0．2， shear＝0．2， zoom＝0．2， horizontal＿flip＝True，）

test＿datagen ＝ ImageDataGenerator（rescale＝1．／255）

train＿generator ＝ train＿datagen．flow＿from＿directory（train＿dir， target＿size＝（150， 150）， batch＿size＝32， class＿mode＝＇binary＇）

validation＿generator ＝ test＿datagen．flow＿from＿directory（validation＿dir， target＿size＝（150， 150）， batch＿size＝32， class＿mode＝＇binary＇）

history ＝ model．fit＿generator（train＿generator， steps＿per＿epoch＝100， epochs＝100， validation＿data＝validation＿generator， validation＿steps＝50）

＃＃＃＃－－－－－－－Save the model－－－－－－－－＃＃＃＃＃

model．save（＇cats＿and＿dogs＿small＿2．h5＇）

由于數(shù)據(jù)增強和丟失，模型不再過度擬合。因為訓(xùn)練曲線和驗證曲線彼此接近。有了這個準確度，你就超過了非正則化模型 15％，達到了 82％。讓我們繪制曲線。

在訓(xùn)練期間顯示損失曲線和準確度

通過使用其他正則化方法和微調(diào)網(wǎng)絡(luò)參數(shù)（例如每個卷積層的過濾器數(shù)量或網(wǎng)絡(luò)中的層數(shù)），你可以實現(xiàn)更高的準確度，高達 86％或 87％。

但是，由于你要處理的數(shù)據(jù)很少，因此僅通過從頭開始訓(xùn)練自己的 CNN 來達到更高的水平將是一項挑戰(zhàn)。

你必須采用預(yù)訓(xùn)練模型作為進一步的步驟，以提高你在此挑戰(zhàn)中的準確性。

結(jié)論

1. 訓(xùn)練數(shù)據(jù)的質(zhì)量、數(shù)量和上下文本質(zhì)會顯著影響深度學(xué)習(xí)模型的準確性。但開發(fā)深度學(xué)習(xí)模型的最大問題之一是缺乏數(shù)據(jù)。

2. 在生產(chǎn)使用方法中獲取此類數(shù)據(jù)可能既昂貴又耗時。公司使用數(shù)據(jù)增強這一低成本且高效的技術(shù)來更快地開發(fā)高精度 AI 模型，并減少對收集和準備訓(xùn)練實例的依賴。

3. 本文解釋了我們?nèi)绾问褂脭?shù)據(jù)增強技術(shù)來訓(xùn)練我們的模型。當(dāng)收集大量數(shù)據(jù)具有挑戰(zhàn)性時，會使用數(shù)據(jù)增強。正如博客中所討論的，醫(yī)療保健和無人駕駛汽車是使用這種方法的兩個最著名的領(lǐng)域。

原文標(biāo)題 : 使用數(shù)據(jù)增強從頭開始訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（CNN）