Megerősítő tanulás: mi az, algoritmusok, Alkalmazások, példa

mi a megerősítő tanulás?

a megerősítő tanulás olyan gépi tanulási módszer, amely arra vonatkozik, hogy a szoftverügynököknek hogyan kell cselekedniük egy környezetben. A megerősítő tanulás a mély tanulási módszer része, amely segít maximalizálni a kumulatív jutalom egy részét.

Ez a neurális hálózati tanulási módszer segít megtanulni, hogyan lehet elérni egy összetett célt, vagy maximalizálni egy adott dimenziót sok lépésben.

a megerősítő tanulás oktatóanyagában megtudhatja:

mi a megerősítő tanulás?
a mély megerősítési tanulási módszerben használt fontos kifejezések
hogyan működik a megerősítési tanulás?
megerősítési tanulási algoritmusok
a megerősítési tanulás jellemzői
a megerősítési tanulás típusai
a megerősítési tanulás tanulási modelljei
megerősítési tanulás vs. felügyelt tanulás
a megerősítési tanulás alkalmazásai
miért érdemes megerősítő tanulást használni?
mikor ne használja a megerősítő tanulást?
kihívások megerősítés tanulás

fontos használt kifejezések mély megerősítés tanulási módszer

Íme néhány fontos használt kifejezések megerősítése AI:

ügynök: ez egy feltételezett entitás, amely műveleteket hajt végre egy környezetben, hogy valamilyen jutalmat szerezzen.
környezet (e): olyan forgatókönyv, amellyel egy ügynöknek szembe kell néznie.
jutalom (R): Az ügynöknek adott azonnali visszatérés, amikor konkrét műveletet vagy feladatot hajt végre.
állapot (ok): állapot a környezet által visszaadott jelenlegi helyzetre utal.
politika (?): Ez egy olyan stratégia, amelyet az ügynök alkalmaz a következő művelet eldöntésére az aktuális állapot alapján.
érték (V): hosszú távú hozam várható kedvezménnyel, a rövid távú jutalomhoz képest.
Értékfüggvény: meghatározza egy állapot értékét, amely a jutalom teljes összege. Ez egy ügynök, amelyet az adott államtól kell elvárni.
a környezet modellje: ez utánozza a környezet viselkedését. Segít abban, hogy következtetéseket vonjon le, és meghatározza, hogyan fog viselkedni a környezet.
modell alapú módszerek: ez egy módszer a megerősítési tanulási problémák megoldására, amelyek modellalapú módszereket használnak.
Q érték vagy műveleti érték (Q): A Q érték nagyon hasonló az értékhez. Az egyetlen különbség a kettő között az, hogy egy további paramétert vesz igénybe aktuális műveletként.

hogyan működik a megerősítő tanulás?

lássunk néhány egyszerű példát, amely segít bemutatni a megerősítő tanulási mechanizmust.

fontolja meg az új trükkök tanításának forgatókönyvét macskájának

mivel macska nem ért angolul vagy más emberi nyelven, nem tudjuk közvetlenül megmondani neki, mit tegyen. Ehelyett más stratégiát követünk.
utánozunk egy helyzetet, és a macska sokféle módon próbál reagálni. Ha a macska válasza a kívánt módon, akkor halat adunk neki.
most, amikor a macska ki van téve ugyanannak a helyzetnek, a macska hasonló műveletet hajt végre, még lelkesebben elvárva, hogy több jutalmat(ételt) kapjon.
ez olyan, mintha megtanulnánk, hogy a macska a “mit kell tennie” pozitív tapasztalatokból származik.
ugyanakkor a macska azt is megtanulja, hogy mit ne tegyen, ha negatív tapasztalatokkal szembesül.

A példa magyarázata:

ebben az esetben

macskája a környezetnek kitett szer. Ebben az esetben ez a ház. Egy példa az állam lehet a macska ül, és egy adott szót a macska járni.
ügynökünk úgy reagál, hogy egy “állapot” – ból egy másik “állapotba való átmenetet hajt végre.”
például a macskád üléstől járásig megy.
az ágens reakciója cselekvés, a politika pedig egy olyan művelet kiválasztásának módszere, amely egy állapotot ad a jobb eredmények elvárására.
az átmenet után jutalmat vagy büntetést kaphatnak cserébe.

megerősítési tanulási algoritmusok

három megközelítés létezik a megerősítési tanulási algoritmus megvalósítására.

értékalapú:

értékalapú megerősítési tanulási módszernél meg kell próbálnia maximalizálni egy értékfüggvényt V(s). Ebben a módszerben az ügynök a jelenlegi államok hosszú távú visszatérését várja a politika alatt ?.

Policy-based:

egy policy-based RL metódusban megpróbálsz olyan politikát kidolgozni, hogy a minden államban végrehajtott művelet segít a maximális jutalom megszerzésében a jövőben.

a politikaalapú módszerek két típusa:

determinisztikus: bármely állam esetében ugyanazt a műveletet hozza létre a politika ?.
sztochasztikus: minden műveletnek van egy bizonyos valószínűsége, amelyet a következő egyenlet határoz meg.Sztochasztikus politika:
```
n{a\s) = P\A, = a\S, =S]
```

modell alapú:

ebben a megerősítő tanulási módszerben minden környezethez létre kell hoznia egy virtuális modellt. Az ügynök megtanulja végrehajtani az adott környezetben.

A megerősítő tanulás jellemzői

itt vannak a megerősítő tanulás fontos jellemzői

nincs felügyelő, csak egy valós szám vagy jutalom jel
szekvenciális döntéshozatal
az idő döntő szerepet játszik a megerősítési problémákban
a visszajelzés mindig késik, nem pedig azonnali
Az ügynök műveletei meghatározzák a kapott későbbi adatokat

A megerősítő tanulás típusai

kétféle megerősítési tanulási módszer:

pozitív:

Ez egy olyan esemény, amely egy adott viselkedés miatt következik be. Növeli a viselkedés erősségét és gyakoriságát, és pozitívan befolyásolja az ügynök által hozott intézkedéseket.

Ez a fajta megerősítés segít maximalizálni a teljesítményt és fenntartani a változást hosszabb ideig. A túl sok megerősítés azonban az állapot túlzott optimalizálásához vezethet, ami befolyásolhatja az eredményeket.

negatív:

a negatív megerősítés a viselkedés megerősítése, amely egy negatív állapot miatt következik be, amelyet meg kellett volna állítani vagy elkerülni. Segít meghatározni a teljesítmény minimális állását. Ennek a módszernek az a hátránya, hogy elegendő ahhoz, hogy megfeleljen a minimális viselkedésnek.

A megerősítés tanulási modelljei

a megerősítéses tanulásban két fontos tanulási modell létezik:

Markov döntési folyamat
Q tanulás

Markov döntési folyamat

a következő paramétereket használjuk a megoldás eléréséhez:

műveletek halmaza-a
állapotok halmaza-s
jutalom-R
politika-n
érték-V

a matematikai megközelítés a megoldás feltérképezéséhez a megerősítési tanulásban a recon mint Markov döntési folyamat vagy (MDP).

Q-Learning

A Q learning egy értékalapú információszolgáltatási módszer annak érdekében, hogy az ügynöknek milyen lépéseket kell tennie.

értsük meg ezt a módszert a következő példával:

egy épületben öt szoba van, amelyeket ajtók kötnek össze.
minden szoba 0-tól 4-ig van számozva
az épület külső része lehet egy nagy külső terület (5)
az 1-es és a 4-es ajtók az 5-ös szobából vezetnek be az épületbe

ezután minden ajtóhoz hozzá kell rendelni egy jutalom értéket:

ajtók, amelyek közvetlenül a cél van egy jutalom 100
ajtók, amelyek nem közvetlenül kapcsolódik a cél szoba ad nulla jutalom
mivel az ajtók kétirányú, és két nyíl van rendelve minden szobában
minden nyíl a fenti képen tartalmaz egy azonnali jutalom értéke

magyarázat:

Ezen a képen, akkor megtekintheti, hogy a szoba egy állam

az ügynök egyik szobából a másikba történő mozgása egy műveletet jelent

az alábbi képen egy állapotot csomópontként írnak le, míg a nyilak a műveletet mutatják.

For example, an agent traverse from room number 2 to 5

Initial state = state 2
State 2-> state 3
State 3 -> state (2,1,4)
State 4-> state (0,5,3)
State 1-> state (5,3)
State 0-> state 4

Reinforcement Learning vs. Felügyelt tanulás

paraméterek	megerősítés tanulás	felügyelt tanulás
döntési stílus	megerősítés tanulás segít, hogy a döntéseket egymás után.	ebben a módszerben döntés születik az elején megadott bemenetről.
működik	működik kölcsönhatásban áll a környezettel. a	példákon vagy adott mintaadatokon működik.
függés a döntéstől	az RL módszerben a tanulási döntés függ. Ezért címkéket kell adnia az összes függő döntéshez.	felügyelt tanulás a döntéseket, amelyek függetlenek egymástól, így címkék kapnak minden döntést.
a legmegfelelőbb	támogatja és jobban működik az AI-ben, ahol az emberi interakció elterjedt.	leginkább interaktív szoftverrendszerrel vagy alkalmazásokkal működik.
példa	sakkjáték	Objektumfelismerés

A megerősítő tanulás alkalmazásai

itt találhatók a megerősítő tanulás alkalmazásai:

robotika ipari automatizáláshoz.
üzleti stratégia tervezés
Gépi tanulás és adatfeldolgozás
ez segít létrehozni képzési rendszerek, amelyek az egyéni oktatás és anyagok szerint a követelmény a diákok.
repülőgép-vezérlés és robot mozgásvezérlés

miért használja a megerősítő tanulást?

itt vannak a megerősítés tanulásának elsődleges okai:

ez segít megtalálni, hogy melyik helyzethez van szükség cselekvésre
segít felfedezni, hogy melyik művelet hozza a legnagyobb jutalmat a hosszabb időszakban.
a megerősítő tanulás jutalmazási funkciót is biztosít a tanulási ügynök számára.
azt is lehetővé teszi, hogy kitalálja a legjobb módszert a nagy jutalmak megszerzésére.

mikor ne használjon megerősítő tanulást?

nem lehet alkalmazni erősítő tanulási modell minden a helyzet. Íme néhány feltétel, amikor nem szabad megerősítő tanulási modellt használni.

ha elegendő adattal rendelkezik a probléma megoldásához egy felügyelt tanulási módszerrel
ne feledje, hogy a megerősítő tanulás számítástechnikai szempontból nehéz és időigényes. különösen akkor, ha a cselekvési tér nagy.

A megerősítés tanulásának kihívásai

itt vannak a legfontosabb kihívások, amelyekkel szembe kell néznie a megerősítés megszerzése közben:

Feature/reward design, amelyet nagyon be kell vonni
a paraméterek befolyásolhatják a tanulás sebességét.
a reális környezetek részleges megfigyelhetőséggel rendelkezhetnek.
a túl sok megerősítés az állapotok túlterheléséhez vezethet, ami csökkentheti az eredményeket.
a reális környezetek nem helyhez kötöttek lehetnek.

Összegzés:

a megerősítő tanulás egy gépi tanulási módszer
segít felfedezni, hogy melyik művelet hozza a legnagyobb jutalmat a hosszabb időszakban.
a megerősítő tanulás három módszere: 1) értékalapú 2) Politikaalapú és modellalapú tanulás.
ügynök, állapot, jutalom, környezet, a környezet Értékfüggvény-modellje, modell alapú módszerek, néhány fontos kifejezés az RL tanulási módszerben
a megerősítő tanulás példája az, hogy a macskád olyan ügynök, amely ki van téve a környezetnek.
ennek a módszernek a legnagyobb jellemzője, hogy nincs felügyelő, csak valós szám vagy jutalomjel
a megerősítő tanulás két típusa 1) pozitív 2) negatív
két széles körben használt tanulási modell 1) Markov döntési folyamat 2) Q tanulás
a megerősítő tanulási módszer a környezettel való kölcsönhatáson működik, míg a felügyelt tanulási módszer az adott mintaadatokon vagy példákon működik.
alkalmazás vagy megerősítés tanulási módszerek: Robotika ipari automatizáláshoz és üzleti stratégia tervezéshez
ne használja ezt a módszert, ha elegendő adata van a probléma megoldásához
a módszer legnagyobb kihívása az, hogy a paraméterek befolyásolhatják a tanulás sebességét