aktivációs funkciók a legfontosabb része minden neurális hálózat mély tanulás. A mély tanulásban nagyon bonyolult feladatok a képosztályozás, a nyelvátalakítás, az objektumfelismerés stb., amelyek a neurális hálózatok és az aktivációs funkció segítségével történő kezeléshez szükségesek. Tehát anélkül, hogy ezeket a feladatokat rendkívül bonyolult kezelni.
dióhéjban, a neurális hálózat egy nagyon hatékony technika a gépi tanulásban, amely alapvetően utánozza, hogy az agy hogyan érti, hogyan? Az agy bemenetként fogadja az ingereket a környezetből, feldolgozza, majd ennek megfelelően előállítja a kimenetet.
Bevezetés
a neurális hálózat aktiválási funkciói általában a mély tanulás legjelentősebb elemei, alapvetően a mély tanulási modellek kimenetének meghatározására, annak pontosságára és a képzési modell teljesítményhatékonyságára szolgálnak, amely hatalmas méretű neurális hálózatot tervezhet vagy oszthat meg.
Az aktiválási funkciók jelentős hatást gyakoroltak a neurális hálózatok konvergenciájának és konvergencia sebességének képességére, nem akarod, hogyan? Folytassuk az aktiválási funkció bemutatásával, az aktiválási funkciók típusaival & ezek fontossága és korlátai ezen a blogon keresztül.
mi az aktiválási funkció?
Az aktiválási funkció meghatározza a bemenet kimenetét vagy a bemenetek halmazát, vagy más értelemben meghatározza a bemenetekben megadott csomópont kimenetének csomópontját. Alapvetően úgy döntenek, hogy deaktiválják az idegsejteket, vagy aktiválják őket a kívánt kimenet elérése érdekében. Ezenkívül nemlineáris átalakítást hajt végre a bemeneten, hogy jobb eredményeket érjen el egy komplex neurális hálózaton.
Az aktiválási funkció segít normalizálni bármely bemenet kimenetét az 1 és -1 közötti tartományban. Az aktiválási funkciónak hatékonynak kell lennie, és csökkentenie kell a számítási időt, mivel a neurális hálózat néha több millió adatponton képzett.
Az aktiválási funkció alapvetően minden neurális hálózatban eldönti, hogy az adott bemeneti vagy fogadó információ releváns vagy irreleváns. Vegyünk egy példát, hogy jobban megértsük, mi az a neuron, és hogyan korlátozza az aktivációs funkció a kimeneti értéket valamilyen határig.
a neuron alapvetően a bemenet súlyozott átlaga, akkor ezt az összeget egy aktiválási funkción keresztül vezetik át, hogy kimenetet kapjanak.
Y = (súlyok*bemenet + elfogultság)
itt Y bármi lehet egy idegsejt számára a tartomány-végtelenség – +végtelenség között. Tehát meg kell kötnünk a kimenetünket, hogy megkapjuk a kívánt előrejelzést vagy általánosított eredményeket.
Y = aktiválási funkció (++(súlyok*bemenet + elfogultság))
tehát átadjuk ezt a neuront az aktiválási funkciónak a kötött kimeneti értékekhez.
miért van szükségünk aktiválási funkciókra?
aktivációs funkció nélkül a súly és az elfogultság csak lineáris transzformációval járna, vagy a neurális hálózat csak egy lineáris regressziós modell, a lineáris egyenlet csak egy fokú polinom, amelyet egyszerű megoldani, de korlátozott a komplex problémák vagy magasabb fokú polinomok megoldásának képessége szempontjából.
ezzel szemben az aktivációs funkció hozzáadása a neurális hálózathoz végrehajtja a nemlineáris transzformációt a bemenetre, és lehetővé teszi komplex problémák megoldását, mint például a nyelvi fordítások és a képbesorolások.
ezen felül az aktiválási funkciók differenciálhatók, amelyek miatt könnyen végrehajthatják a hátsó szaporításokat, optimalizált stratégiát, miközben backpropagációkat hajtanak végre a gradiens veszteségfüggvények mérésére a neurális hálózatokban.
az aktiválási funkciók típusai
a leghíresebb aktiválási funkciók az alábbiakban találhatók,
-
bináris lépés
-
lineáris
-
ReLU
-
LeakyReLU
-
Sigmoid
-
Tanh
-
softmax
1. Bináris lépés aktiválási funkció
Ez az aktiválási funkció nagyon egyszerű, és minden alkalommal eszébe jut, ha megpróbáljuk kötni a kimenetet. Ez alapvetően egy küszöbbázis-osztályozó, ebben döntünk valamilyen küszöbértéket annak eldöntésére, hogy a neuront aktiválni vagy deaktiválni kell-e.
f(x) = 1 if x > 0 else 0 if X < 0
bináris lépésfüggvény
ebben a küszöbértéket 0-ra határozzuk meg. Ez nagyon egyszerű és hasznos osztályozni bináris problémák vagy osztályozó.
2. Lineáris aktivációs funkció
Ez egy egyszerű egyenes aktivációs funkció, ahol funkciónk közvetlenül arányos az idegsejtek vagy a bemenet súlyozott összegével. A lineáris aktiválási funkciók jobbak az aktiválások széles skálájának megadásában, és a pozitív lejtésű vonal növelheti a tüzelési sebességet a bemeneti sebesség növekedésével.
binárisan, vagy egy neuron tüzel, vagy sem. Ha ismeri a gradiens leszármazást a mély tanulásban, akkor észreveszi, hogy ebben a függvényben a származék állandó.
Y = mZ
ahol a Z-re vonatkozó derivált állandó m. a gradiens jelentése is állandó, és semmi köze a Z-hez.ebben az esetben, ha a backpropagation változásai állandóak lesznek, és nem függenek Z-től, így ez nem lesz jó a tanuláshoz.
ebben a második rétegünk az előző rétegek bemenetének lineáris függvényének kimenete. Várj egy percet, mit tanultunk ebben, hogy ha összehasonlítjuk az összes réteget, és eltávolítjuk az összes réteget, kivéve az elsőt és az utolsót, akkor is csak olyan kimenetet kapunk, amely az első réteg lineáris függvénye.
3. ReLU (Rectified Linear unit) aktiválási funkció
a Rectified linear unit vagy ReLU jelenleg a legszélesebb körben használt aktiválási funkció, amely 0-tól a végtelenig terjed, az összes negatív értéket nullára konvertálják, és ez a konverziós arány olyan gyors, hogy sem nem képes leképezni, sem megfelelően illeszteni az adatokba, ami problémát okoz, de ahol probléma van, ott van megoldás.
Korrigált lineáris egység aktiválási funkció
a Relu helyett szivárgó ReLU funkciót használunk, hogy elkerüljük ezt a nem illeszkedést, a szivárgó ReLU tartományban kibővül, ami növeli a teljesítményt.
szivárgó ReLU aktiválási funkció
szivárgó ReLU aktiválási funkció
szükségünk volt a szivárgó ReLU aktiválási funkcióra a “haldokló ReLU” probléma megoldásához, amint azt a ReLU tárgyalja, megfigyeljük, hogy az összes negatív bemeneti érték nagyon gyorsan nullává válik, és szivárgó ReLU esetén nem minden negatív bemenetet nullára, hanem nullához közeli értékre teszünk, amely megoldja a ReLU aktiválási funkció fő kérdését.
Sigmoid aktiválási funkció
a sigmoid aktiválási funkciót leginkább azért használják, mert nagy hatékonysággal végzi feladatát, alapvetően valószínűségi megközelítés a döntéshozatalhoz és 0-1 között mozog, így amikor döntést kell hoznunk vagy előre kell jeleznünk egy kimenetet, akkor ezt az aktiválási funkciót használjuk, mert a tartomány a minimális, ezért az előrejelzés pontosabb lenne.
Sigmoid aktiválási funkció
a sigmoid függvény egyenlete
f(x) = 1/(1+e(-x) )
a Sigmoid függvény olyan problémát okoz, amelyet elsősorban eltűnő gradiens problémának neveznek, amely azért fordul elő, mert nagy bemenetet konvertálunk a 0 és 1 közötti tartományba, ezért származékaik sokkal kisebbek lesznek, ami nem ad kielégítő kimenetet. A probléma megoldásához egy másik aktiválási funkciót, például a ReLU-t használunk, ahol nincs kis származékos problémánk.
hiperbolikus tangens aktivációs funkció(Tanh)
Tanh aktiválási funkció
Ez az aktiválási funkció valamivel jobb, mint a sigmoid funkció, hasonlóan a sigmoid funkcióhoz, két osztály előrejelzésére vagy megkülönböztetésére is használják, de a negatív bemenetet csak negatív mennyiségre térképezi fel, és -1 és 1 között mozog.
Softmax aktiválási funkció
a Softmax-ot elsősorban az utolsó i rétegben használják.e kimeneti réteg a döntéshozatalhoz ugyanaz, mint a sigmoid aktiválás, a softmax alapvetően értéket ad a bemeneti változónak súlyuk szerint, és ezeknek a súlyoknak az összege végül egy.
Softmax a bináris osztályozáshoz
bináris osztályozáshoz mind a sigmoid, mind a softmax egyformán megközelíthető, de többosztályos osztályozási probléma esetén általában softmax-ot és kereszt-entrópiát használunk vele együtt.
következtetés
az aktiválási függvények azok a jelentős függvények, amelyek nemlineáris transzformációt hajtanak végre a bemenetre, és így jártasak a bonyolultabb feladatok megértésében és végrehajtásában. Megbeszéltük 7 majorly használt aktiválási funkciók azok korlátozásával (ha van ilyen), ezeket az aktiválási funkciókat ugyanarra a célra használják, de különböző körülmények között.