Illustrert Guide TIL LSTM og GRU: en trinnvis forklaring

Hei Og velkommen til En Illustrert Guide Til Lang Korttidshukommelse (lstm) Og Gated TILBAKEVENDENDE ENHETER (gru). Jeg Er Michael, Og Jeg Er En Maskinlæringsingeniør i AI-stemmeassistentrommet.

i dette innlegget begynner vi med intuisjonen bak LSTM og GRU. Da skal jeg forklare de interne mekanismene som gjør AT LSTM og GRU kan utføre så bra. Hvis du vil forstå hva som skjer under hetten for disse to nettverkene, så er dette innlegget for deg.

du kan også se videoversjonen av dette innlegget på youtube hvis du foretrekker det.

Tilbakevendende Nevrale Nettverk lider av korttidshukommelse. Hvis en sekvens er lang nok, vil de ha det vanskelig å bære informasjon fra tidligere tidstrinn til senere. Så hvis DU prøver å behandle et avsnitt med tekst for å gjøre spådommer, KAN RNNS utelate viktig informasjon fra begynnelsen.under tilbakeutbredelse lider tilbakevendende nevrale nettverk av det forsvinnende gradientproblemet. Gradienter er verdier som brukes til a oppdatere nevrale nettverk vekter. Det forsvinnende gradientproblemet er når gradienten krymper når den tilbake forplanter seg gjennom tiden. Hvis en gradientverdi blir ekstremt liten, bidrar den ikke til for mye læring.

disse portene kan lære hvilke data i en sekvens som er viktig å beholde eller kaste bort. Ved å gjøre det, kan det passere relevant informasjon ned den lange kjeden av sekvenser for å gjøre spådommer. Nesten alle toppmoderne resultater basert på tilbakevendende nevrale nettverk oppnås med disse to nettverkene. LSTM og GRU finnes i talegjenkjenning, talesyntese og tekstgenerering. Du kan også bruke dem til å generere bildetekster for videoer.

Ok, så ved slutten av dette innlegget bør du ha en solid forståelse av hvorfor LSTM og GRU er gode til å behandle lange sekvenser. Jeg skal nærme meg dette med intuitive forklaringer og illustrasjoner og unngå så mye matte som mulig.

Intuisjon

Ok, La Oss starte med et tankeeksperiment. La oss si at du ser på anmeldelser på nettet for å avgjøre om Du vil kjøpe Life cereal (ikke spør meg hvorfor). Du vil først lese anmeldelsen og deretter avgjøre om noen trodde det var bra eller om det var dårlig.

når du leser anmeldelsen, husker hjernen din ubevisst bare viktige søkeord. Du plukker opp ord som » fantastisk «og» perfekt balansert frokost». Du bryr deg ikke mye om ord som «dette»,» ga»,» alt»,» burde», etc. Hvis en venn spør deg neste dag hva anmeldelsen sa, vil du sannsynligvis ikke huske det ord for ord. Du husker kanskje de viktigste punktene skjønt som «vil definitivt være å kjøpe igjen». Hvis du er mye som meg, vil de andre ordene forsvinne fra minnet.

og det er egentlig hva en lstm eller gru gjør. Det kan lære å holde bare relevant informasjon for å gjøre spådommer, og glemme ikke relevante data. I dette tilfellet fikk ordene du husket deg til å dømme at det var bra.

Gjennomgang Av Tilbakevendende Nevrale Nettverk

for å forstå hvordan LSTM eller GRU oppnår dette, la oss se gjennom tilbakevendende nevrale nettverk. En RNN fungerer som dette; Første ord blir forvandlet til maskinlesbare vektorer. DERETTER behandler RNN sekvensen av vektorer en etter en.

la oss se på en celle i rnn for å se hvordan du vil beregne skjult tilstand. Først kombineres inngangen og forrige skjulte tilstand for å danne en vektor. Den vektoren har nå informasjon om gjeldende inngang og tidligere innganger. Vektoren går gjennom tanh-aktiveringen, og utgangen er den nye skjulte tilstanden, eller minnet til nettverket.

tanh-aktivering

tanh-aktiveringen brukes til å regulere verdiene som strømmer gjennom nettverket. Tanh-funksjonen squishes verdier å alltid være mellom -1 og 1.

når vektorer strømmer gjennom et nevralt nettverk, gjennomgår det mange transformasjoner på grunn av ulike matematiske operasjoner. Så forestill deg en verdi som fortsetter å bli multiplisert med la oss si 3. Du kan se hvordan noen verdier kan eksplodere og bli astronomiske, noe som får andre verdier til å virke ubetydelige.

inngangsport

for å oppdatere cellestaten har vi inngangsporten. Først passerer vi forrige skjulte tilstand og nåværende inngang til en sigmoid-funksjon. Som bestemmer hvilke verdier vil bli oppdatert ved å transformere verdiene til å være mellom 0 og 1. 0 betyr ikke viktig, og 1 betyr viktig. Du passerer også skjult tilstand og nåværende inngang i tanh-funksjonen for å klemme verdier mellom -1 og 1 for å regulere nettverket. Deretter multipliserer du tanh-utgangen med sigmoid-utgangen. Den sigmoid utgang vil avgjøre hvilken informasjon som er viktig å holde fra tanh utgang.

cellestatus

nå skal vi ha nok informasjon til å beregne cellestaten. For det første blir cellestaten punktvis multiplisert med glemvektoren. Dette har en mulighet for å slippe verdier i celletilstanden hvis den blir multiplisert med verdier nær 0. Så tar vi utgangen fra inngangsporten og gjør et punktvis tillegg som oppdaterer cellestaten til nye verdier som det nevrale nettverket finner relevant. Det gir oss vår nye celletilstand.

utgangsport

sist har vi utgangsporten. Utgangsporten bestemmer hva neste skjulte tilstand skal være. Husk at skjult tilstand inneholder informasjon om tidligere innganger. Den skjulte tilstanden brukes også til spådommer. Først passerer vi den forrige skjulte tilstanden og den nåværende inngangen til en sigmoid-funksjon. Deretter sender vi den nylig modifiserte cellestaten til tanh-funksjonen. Vi multipliserer tanh-utgangen med sigmoid-utgangen for å bestemme hvilken informasjon den skjulte tilstanden skal bære. Utgangen er skjult tilstand. Den nye cellestaten og den nye skjulte blir deretter overført til neste gang.

for å se gjennom, bestemmer glem gate hva som er relevant å holde fra tidligere trinn. Inngangsporten bestemmer hvilken informasjon som er relevant for å legge til fra gjeldende trinn. Utgangsporten bestemmer hva neste skjulte tilstand skal være.

Code Demo

for de av dere som forstår bedre gjennom å se koden, her er et eksempel ved hjelp av python pseudokode.

1. Først blir den forrige skjulte tilstanden og den nåværende inngangen sammenkoblet. Vi kaller det kombinere.
2. Kombiner få er matet inn i glem lag. Dette laget fjerner ikke-relevante data.
4. Et kandidatlag opprettes ved hjelp av kombinere. Kandidaten har mulige verdier for å legge til cellestatus.
3. Kombiner også få er matet inn i inngangslaget. Dette laget bestemmer hvilke data fra kandidaten som skal legges til den nye cellestaten.
5. Etter å ha beregnet glemslaget, kandidatlaget og inngangslaget, beregnes celletilstanden ved hjelp av disse vektorene og den forrige celletilstanden.
6. Utgangen beregnes deretter.
7. Punktvis multiplikasjon av utgangen og den nye cellestaten gir oss den nye skjulte tilstanden.

Det er det! Kontrollflyten til ET LSTM-nettverk er noen få tensor-operasjoner og en for loop. Du kan bruke de skjulte statene for spådommer. Ved å kombinere alle disse mekanismene kan EN LSTM velge hvilken informasjon som er relevant for å huske eller glemme under sekvensbehandling.

GRU

så nå vet vi hvordan EN LSTM fungerer, la oss kort se PÅ GRU. GRU ER den nyere generasjonen Av Tilbakevendende Nevrale nettverk og er ganske lik EN LSTM. GRU kvittet seg med cellestaten og brukte den skjulte tilstanden til å overføre informasjon. Den har også bare to porter, en tilbakestillingsport og oppdateringsport.

Illustrert Guide TIL LSTM og GRU: en trinnvis forklaring

Illustrert Guide TIL LSTM og GRU: en trinnvis forklaring

LSTM ‘s og GRU’ s som en løsning

Intuisjon

Gjennomgang Av Tilbakevendende Nevrale Nettverk

tanh-aktivering

LSTM

Kjernekonsept

Sigmoid

Glem gate

inngangsport

cellestatus

utgangsport

Code Demo

GRU

oppdateringsporten

Reset Gate

Så det er det

Legg igjen en kommentar Avbryt svar

LSTM ‘s og GRU’ s som en løsning

Intuisjon

Gjennomgang Av Tilbakevendende Nevrale Nettverk

tanh-aktivering

LSTM

Kjernekonsept

Sigmoid

Glem gate

inngangsport

cellestatus

utgangsport

Code Demo

GRU

oppdateringsporten

Reset Gate

Så det er det

Legg igjen en kommentar Avbryt svar

You may like this....