7 Aktivointifunktion tyyppiä neuroverkkojen

Aktivointifunktiot ovat syväoppimisessa olennaisin osa mitä tahansa neuroverkkoa. Syväoppimisessa hyvin monimutkaisia tehtäviä ovat kuvanluokitus, kielen muokkaus, objektien havaitseminen jne., joita tarvitaan neuroverkkojen ja aktivointitoiminnon avulla käsiteltäväksi. Joten, ilman sitä, nämä tehtävät ovat erittäin monimutkaisia käsitellä.

pähkinänkuoressa neuroverkko on koneoppimisessa erittäin tehokas tekniikka, joka pohjimmiltaan jäljittelee sitä, miten aivot ymmärtävät, miten? Aivot saavat ärsykkeet, syötteenä, ympäristöstä, prosessoivat ne ja tuottavat sitten tuotoksen sen mukaisesti.

Johdanto

neuroverkkoaktivointitoiminnot ovat yleensä syväoppimisen merkittävin osatekijä, niitä käytetään pohjimmiltaan määritettäessä syväoppimismallien tuotosta, sen tarkkuutta ja koulutusmallin suorituskyvyn tehokkuutta, jotka voivat suunnitella tai jakaa valtavan mittakaavan neuroverkkoa.

Aktivointitoiminnot ovat jättäneet huomattavia vaikutuksia neuroverkkojen kykyyn konvergoida ja konvergenssinopeuteen, Etkö halua miten? Jatketaan esittelemällä aktivointifunktio, aktivointifunktioiden tyypit & niiden merkitys ja rajoitukset tämän blogin kautta.

mikä on aktivointifunktio?

Aktivointifunktio määrittelee tulon tai tulojoukon tuotoksen tai muilla termeillä määrittelee tuloissa annetun solmun tuotoksen solmun. He periaatteessa päättävät deaktivoida neuronit tai aktivoida ne saadakseen halutun tuotoksen. Se suorittaa myös epälineaarisen muutoksen tuloon saadakseen parempia tuloksia monimutkaisessa neuroverkossa.

Aktivointifunktio auttaa myös normalisoimaan minkä tahansa tulon lähdön välillä 1: -1. Aktivointitoiminnon on oltava tehokasta ja sen pitäisi lyhentää laskenta-aikaa, koska neuroverkko harjoittelee joskus miljoonissa datapisteissä.

Aktivointifunktio periaatteessa päättää missä tahansa neuroverkossa, että annettu syöttö tai tiedon vastaanottaminen on relevanttia tai sillä ei ole merkitystä. Otetaanpa esimerkki ymmärtää paremmin, mikä on neuroni ja miten aktivointitoiminto rajaa lähtöarvon johonkin rajaan.

neuroni on periaatteessa tulon painotettu keskiarvo, jonka jälkeen tämä summa johdetaan aktivointifunktion kautta, jotta saadaan lähtö.

Y = ∑ (painot*input + bias)

tässä Y voi olla mitä tahansa hermosolulle väliltä-äärettömästä +äärettömään. Niin, meidän täytyy sitoa meidän tuotos saada haluttu ennuste tai yleistettyjä tuloksia.

Y = Aktivointifunktio(∑ (painot*input + bias))

näin siirrämme kyseisen neuronin aktivointifunktiolle sidotuille lähtöarvoille.

miksi tarvitsemme Aktivointifunktioita?

ilman aktivointifunktiota painolla ja harsolla olisi vain lineaarinen transformaatio, tai neuroverkko on vain lineaarinen regressiomalli, lineaarinen yhtälö on vain yhden asteen polynomi, joka on yksinkertainen ratkaista, mutta rajoitettu kykyyn ratkaista monimutkaisia ongelmia tai korkeamman asteen polynomeja.

mutta päinvastoin, aktivointifunktion lisääminen neuroverkkoon toteuttaa epälineaarisen transformaation syötteeseen ja tekee siitä kykenevän ratkaisemaan monimutkaisia ongelmia, kuten kielenkäännöksiä ja kuvanluokituksia.

sen lisäksi Aktivointifunktiot ovat differentioituvia, minkä vuoksi ne voivat helposti toteuttaa takaisinpropagaatioita, optimoitua strategiaa suorittaen samalla backpropagaatioita, joilla mitataan gradienttihäviöfunktioita neuroverkoissa.

Aktivaatiofunktioiden tyypit

tunnetuimmat aktivointifunktiot on esitetty alla,

    Binääriaskel

    Lineaarinen

    ReLU

    Vuotorelu

    Sigmoid

    Tanh/p>

    softmax

1. Binääriaskelaktivointifunktio

Tämä aktivointifunktio on hyvin perus ja se tulee joka kerta mieleen, jos yritämme sitoa ulostuloa. Se on periaatteessa kynnysperusteen luokittelija, tässä me päätämme jonkin kynnysarvon päättääksemme ulostulon, että neuroni pitäisi aktivoida tai deaktivoida.

f(x) = 1 if x > 0 else 0 if x < 0

kuva korostaa binääriä askelfunktio neuroverkossa. Analytiikkavaiheet, analyyttiset askeleet

Binääriaskelfunktio

tässä päätetään kynnysarvo arvoon 0. Binääriongelmien tai luokittelijan luokittelu on hyvin yksinkertaista ja hyödyllistä.

2. Lineaarinen Aktivointifunktio

se on yksinkertainen suoran aktivointifunktio, jossa funktiomme on suoraan verrannollinen hermosolujen tai tulon painotettuun summaan. Lineaariset aktivointifunktiot ovat parempia antamaan laajan aktivointialueen ja positiivisen kaltevuuden viiva voi lisätä laukaisunopeutta tulonopeuden kasvaessa.

binäärissä hermosolu joko laukeaa tai ei. Jos tiedät gradientin laskeutumisen syväoppimisessa, huomaat, että tässä funktiossa derivaatta on vakio.

Y = MZ

missä derivaatta z: n suhteen on vakio m. merkitysgradientti on myös vakio eikä sillä ole mitään tekemistä Z: n kanssa.tässä jos backropagaatiossa tehdyt muutokset ovat vakio eivätkä ole riippuvaisia Z: stä, niin tämä ei ole hyväksi oppimiselle.

tässä toinen kerroksemme on edellisten kerrosten tulon lineaarisen funktion ulostulo. Hetkinen, mitä olemme oppineet tässä, että jos vertaamme meidän kaikki kerrokset ja poistaa kaikki kerrokset paitsi ensimmäinen ja viimeinen sitten myös voimme vain saada lähtö, joka on lineaarinen funktio ensimmäisen kerroksen.

3. ReLU (korjattu Lineaarinen yksikkö) Aktivointifunktio

korjattu lineaarinen yksikkö tai ReLU on yleisimmin käytetty aktivointifunktio juuri nyt, joka vaihtelee 0: sta äärettömään, kaikki negatiiviset arvot muunnetaan nollaksi, ja tämä muuntokurssi on niin nopea, ettei se pysty kartoittamaan eikä sopimaan dataan kunnolla, mikä luo ongelman, mutta jos on ongelma, on ratkaisu.

kuvaaja hahmottelee oikaistun lineaarisen Yksikköfunktion vaihtelua aktivointifunktioissa neuroverkossa.

korjattua lineaarista Yksikköaktivointifunktiota

käytämme vuotavaa Relufunktiota Relun sijaan välttääksemme tämän sopimattoman, vuotavassa Relussa skaalaa laajennetaan, mikä parantaa suorituskykyä.

vuotavan Relun Aktivointifunktio

vuotavan Relun funktion vaihtelu aktivointifunktiona neuroverkossa on esitetty kuvassa. Analyysivaiheet

vuotava ReLU-Aktivointifunktio

tarvitsimme vuotavaa ReLU-aktivointifunktiota ”kuolevan Relun” ongelman ratkaisemiseksi, kuten Relussa on keskusteltu, havaitsemme, että kaikki negatiiviset tuloarvot muuttuvat nollaksi hyvin nopeasti ja vuotavan Relun tapauksessa emme tee kaikkia negatiivisia syötteitä nollaan vaan lähelle nollaa, mikä ratkaisee Relun aktivointifunktion pääongelman.

Sigmoid-Aktivointifunktio

sigmoid-aktivointifunktiota käytetään enimmäkseen, koska se tekee tehtävänsä suurella tehokkuudella, se on periaatteessa todennäköisyysperusteinen lähestymistapa päätöksentekoon ja vaihtelee välillä 0-1, joten kun meidän on tehtävä päätös tai ennustettava lähtö, käytämme tätä aktivointifunktiota, koska alue on pienin, joten ennustaminen olisi tarkempaa.

korostaa neuroverkon sigmoidiaktivaatiofunktiota graafisessa muodossa. Analyysivaiheet

sigmoidin Aktivointifunktio

f(x) = 1/(1+e(-x))

sigmoidifunktio aiheuttaa ongelman, jota kutsutaan lähinnä katoavan gradientin ongelmaksi, joka syntyy, koska muunnamme suuren tulon välillä 0-1 ja siksi niiden derivaatat tulevat paljon pienemmiksi, mikä ei anna tyydyttävää tulosta. Tämän ongelman ratkaisemiseksi käytetään toista Aktivointifunktiota, kuten Relua, jossa meillä ei ole pientä derivaattaongelmaa.

hyperbolinen Tangenttiaktivaatiofunktio(Tanh)

hyperbolinen Tangenttiaktivaatiofunktio(Tanh) hermoverkossa ja sen vaihtelu on esitetty kuvaajassa. Analyysivaiheet

Tanhin Aktivointifunktio

Tämä aktivointifunktio on hieman parempi kuin sigmoidifunktio, kuten sigmoidifunktio sitä käytetään myös ennustamaan tai erottamaan kaksi luokkaa, mutta se kartoittaa negatiivisen tulon vain negatiiviseksi suureeksi ja vaihtelee välillä -1-1.

Softmax-Aktivointifunktiota

Softmaxia käytetään pääasiassa viimeisessä kerroksessa i.e lähtö kerros päätöksentekoon sama kuin sigmoid aktivointi toimii, softmax periaatteessa antaa arvon tulo muuttuja mukaan niiden paino ja summa näiden painojen on lopulta yksi.

kuvaaja esittää neuroverkon softmax-aktivaatiofunktion lineaarisena funktiona. / Analytiikkavaiheet

Softmax Binääriluokituksessa

Binääriluokituksessa sekä sigmoid että softmax ovat yhtä helposti lähestyttäviä, mutta moniluokkaluokitusongelman yhteydessä käytetään yleensä softmaxia ja cross-entropiaa sen ohella.

johtopäätös

aktivointifunktiot ovat niitä merkittäviä funktioita, jotka suorittavat tuloon epälineaarisen muunnoksen ja tekevät siitä taitavan ymmärtämään ja suorittamaan monimutkaisempia tehtäviä. Olemme keskustelleet 7 pääasiallisesti käytetty aktivointifunktioita rajoituksineen (jos niitä on), näitä aktivointifunktioita käytetään samaan tarkoitukseen, mutta eri olosuhteissa.

Vastaa

Sähköpostiosoitettasi ei julkaista.