illusztrált útmutató az LSTM-ekhez és a GRU-khoz: lépésről lépésre magyarázat
Szia és üdvözöljük a hosszú rövid távú memória illusztrált útmutatójában (LSTM) és a kapuzott visszatérő egységek (Gru). Michael vagyok, gépi tanulási mérnök az AI hangsegéd térben.
ebben a bejegyzésben az LSTM és a GRU mögött rejlő intuícióval kezdjük. aztán elmagyarázom azokat a belső mechanizmusokat, amelyek lehetővé teszik az LSTM és a GRU számára, hogy ilyen jól teljesítsenek. Ha meg akarja érteni, mi történik a motorháztető alatt e két hálózat esetében, akkor ez a bejegyzés az Ön számára készült.
a bejegyzés videó verzióját a youtube-on is megnézheti, ha úgy tetszik.
a visszatérő neurális hálózatok rövid távú memóriától szenvednek. Ha egy szekvencia elég hosszú, akkor nehezen tudják továbbítani az információkat a korábbi időlépésekről a későbbiekre. Tehát, ha egy bekezdést próbál feldolgozni jóslatok készítéséhez, az RNN-ek a kezdetektől fogva fontos információkat hagyhatnak ki.
a hátsó terjedés során a visszatérő neurális hálózatok szenvednek az eltűnő gradiens problémától. A színátmenetek olyan értékek, amelyeket a neurális hálózatok súlyainak frissítésére használnak. Az eltűnő gradiens probléma az, amikor a gradiens zsugorodik, amikor visszaáll az időben. Ha egy gradiens érték rendkívül kicsi lesz, akkor nem járul hozzá túl sok tanuláshoz.