DL基石-神經(jīng)網(wǎng)絡簡易教程
說到激活函數(shù),我們來了解一下它們的用途激活函數(shù)幫助我們決定是否需要激活該神經(jīng)元,如果我們需要激活該神經(jīng)元那么信號的強度是多少。激活函數(shù)是神經(jīng)元通過神經(jīng)網(wǎng)絡處理和傳遞信息的機制。讓我們用預測天氣的樣本數(shù)據(jù)來理解神經(jīng)網(wǎng)絡為了更好地理解,我們將進行簡化,我們只需要兩個輸入:有兩個隱藏節(jié)點的溫度和能見度,沒有偏置。對于輸出,我們仍然希望將天氣劃分為晴天或不晴天溫度是華氏溫度,能見度是英里。
讓我們看一個溫度為50華氏度,能見度為0.01英里的數(shù)據(jù)。步驟1:我們將權重隨機初始化為一個接近于0但不等于0的值。步驟2:接下來,我們用溫度和能見度的輸入節(jié)點獲取我們的單個數(shù)據(jù)點,并輸入到神經(jīng)網(wǎng)絡。步驟3:從左到右進行前向傳播,將權值乘以輸入值,然后使用ReLU作為激活函數(shù)。目前ReLU是全連接網(wǎng)絡最常用的激活函數(shù)。步驟4:現(xiàn)在我們預測輸出,并將預測輸出與實際輸出值進行比較。由于這是一個分類問題,我們使用交叉熵函數(shù)
交叉熵是一個非負的代價函數(shù),取值范圍在0和1之間在我們的例子中,實際的輸出不是晴天,所以y的值為0。如果y?是1,那么我們把值代入成本函數(shù),看看得到什么
類似地,當實際輸出和預測輸出相同時,我們得到成本c=0。
我們可以看到,對于交叉熵函數(shù),當預測的輸出與實際輸出相匹配時,成本為零;當預測的輸出與實際輸出不匹配時,成本是無窮大的。步驟5:從右向左反向傳播并調整權重。權重是根據(jù)權重對錯誤負責的程度進行調整的,學習率決定了我們更新權重的多少。反向傳播、學習率,我們將用簡單的術語來解釋一切。反向傳播把反向傳播看作是我們有時從父母、導師、同伴那里得到的反饋機制,反饋幫助我們成為一個更好的人。反向傳播是一種快速的學習算法,它告訴我們,當我們改變權重和偏差時,成本函數(shù)會發(fā)生怎樣的變化,從而改變了神經(jīng)網(wǎng)絡的行為。這里不深入研究反向傳播的詳細數(shù)學。在反向傳播中,我們計算每個訓練實例的成本對權重的偏導數(shù)和成本對偏差的偏導數(shù),然后求所有訓練樣本的偏導數(shù)的平均值。對于我們的單個數(shù)據(jù)點,我們確定每個權值和偏差對錯誤的影響程度,基于這些權值對錯誤的影響程度,我們同時調整所有權值。對于使用批量梯度下降(GD)算法,所有訓練數(shù)據(jù)更新一次權值;對于使用隨機梯度下降(SGD)算法,每一個批次訓練示例更新一次權值。對于不同的權重,我們使用GD或SGD重復步驟1到步驟5。隨著權重的調整,某些節(jié)點將根據(jù)激活函數(shù)進行打開或關閉。在我們的天氣例子中,溫度與預測多云的相關性較小,因為夏季的溫度可能在70度以上,而冬季仍然是多云的,或者冬季的溫度可能在30度或更低,但仍然是多云的,在這種情況下,激活函數(shù)可以決定關閉負責溫度的隱藏節(jié)點,只打開可見度節(jié)點,以預測輸出不是晴天,如下圖所示
Epoch是指用于一次學習,一次正向傳播和一次反向傳播的完整數(shù)據(jù)集。我們可以重復也就是在多個epoch下前向和反向傳播,直到我們收斂到一個全局極小值。什么是學習率?學習率控制著我們應該在多大程度上根據(jù)損失梯度調整權重。值越低,學習越慢,收斂到全局最小也越慢。較高的學習率值不會使梯度下降收斂學習率是隨機初始化的。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應用
- 6 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單