神經網路中ReLU是線性還是非線性函式?如果是線性的話為什麼還說它做啟用函式比較好

2021-03-23 10:07:38 字數 1519 閱讀 7749

1樓:豬排滑蛋飯

relu是非線性啟用函式

題主的疑問在於,為什麼relu這種「看似線性」(分段線性)的啟用函式所形成的網路,居然能夠增加非線性的表達能力。

1、首先什麼是線性的網路,如果把線性網路看成一個大的矩陣m。那麼輸入樣本a和b,則會經過同樣的線性變換ma,mb(這裡a和b經歷的線性變換矩陣m是一樣的)。

2、的確對於單一的樣本a,經過由relu啟用函式所構成神經網路,其過程確實可以等價是經過了一個線性變換m1,但是對於樣本b,在經過同樣的網路時,由於每個神經元是否啟用(0或者wx+b)與樣本a經過時情形不同了(不同樣本),因此b所經歷的線性變換m2並不等於m1。因此,relu構成的神經網路雖然對每個樣本都是線性變換,但是不同樣本之間經歷的線性變換m並不一樣,所以整個樣本空間在經過relu構成的網路時其實是經歷了非線性變換的。

3、還有一種解釋就是,不同樣本的同一個feature,在通過relu構成的神經網路時,流經的路徑不一樣(relu啟用值為0,則堵塞;啟用值為本身,則通過),因此最終的輸出空間其實是輸入空間的非線性變換得來的。

4、更極端的,不管是tanh還是sigmoid,你都可以把它們近似看成是分段線性的函式(很多段),但依然能夠有非線性表達能力;relu雖然只有兩段,但同樣也是非線性啟用函式,道理與之是一樣的。

5、relu的優勢在於運算簡單,網路學習速度快

2樓:

1、嚴格來說的話 relu算是分段線性函式。中間隱層啟用函式採用線性函式(例如恆等變換)不好是因為,最後算下來多層網路跟單層網路一個效果。其實 啟用函式的存在是為了神經網路更好的擬合目標函式而已。

2、relu比sigmoid和tanh好是因為它的收斂速度快(sigmoid、tanh函式在自變數比較大的時候 導數很小,採用梯度下降法 變化緩慢,特別是多層網路 就更慢了),計算量比較小(只需要一個閾值進行比較 而不需要做函式運算)。

3樓:

1、嚴格來講 relu函式算是分段線性函式。中間隱層啟用函式選用線性函式(例如恆等函式)不好,是因為算下來多層網路和單層網路一個效果。其實啟用函式的存在是為了神經網路更好的擬合目標函式;

2、relu比sigmoid或tanh好 是因為他的收斂速度比另外兩個快很多(sigmoid自變數比較大時導數趨於零 採用梯度下降法 反應慢,多層網路更為明顯),計算量也要小(relu只需要和閾值做比較,不需要帶入函式計算)。

4樓:

神經元的廣泛互聯與並行工作必然使整個網路呈現出高度的非線性特點。在客觀世界中,許多系統的輸入與輸出之間存在著複雜的非線性關係,對於這類系統,往往很難用傳統的數理方法建立其數學模型。設計合理地神經網路通過對系統輸入輸出樣本對進行自動學習,能夠以任意精度逼近任何複雜的非線性對映。

神經網路的這一優點能使其可以作為多維非線性函式的通用數學模型。該模型的表示式非解析的,輸入輸出資料之間的對映規則由神經網路在學習階段自動抽取並分散式儲存在網路的所有連線中。具有非線性對映功能的神經網路應用十分廣闊,幾乎涉及所有領域。

5樓:布衣之莠

relu導數不是常數,非線性的

如何選擇神經網路的超引數,BP神經網路模型各個引數的選取問題

1 神經網路演算法隱含層的選取 1.1 構造法 首先運用三種確定隱含層層數的方法專得到三個隱含層層數,找到屬最小值和最大值,然後從最小值開始逐個驗證模型 誤差,直到達到最大值。最後選取模型誤差最小的那個隱含層層數。該方法適用於雙隱含層網路。1.2 刪除法 單隱含層網路非線性對映能力較弱,相同問題,為...

matlab中bp神經網路出現inf

能否描述地詳bai細一些,inf指出現du了無窮大,zhi你可能需要檢查程式錯dao誤。回 matlab中bp神經網路的建立 答函式newff函式的格式為 newff pr,s1 s2 sn btf,blf,pf 函式newff建立一個可訓練的前饋網路。輸入引數說明 pr rx2的矩陣以定義r個輸入...

神經網路分析的樣本是不是要大於,神經網路分析的樣本是不是要大於

不是,比如簡單的的分幾個就可以了,問題越複雜類就需要的樣本就越多 大於10個很正常,越多越好,如果小於10個的話,會給 帶來困難。為什麼神經網路識別數字用10個輸出而不是4個 單個網路就能識別所有數字,不是每個數字訓練 一個網路,而是所有數字的訓練樣本來訓練一個網路,訓練後的網路就能反映出這些數字的...