Illustrated Guide to LSTM's and GRU's: A step by step explanation

Hallo und willkommen zu einem illustrierten Leitfaden für Long Short-Term Memory (LSTM) und Gated Recurrent Units GRU). Ich bin Michael und ich bin Ingenieur für maschinelles Lernen im Bereich KI-Sprachassistenten.

In diesem Beitrag beginnen wir mit der Intuition hinter LSTMs und GRUS. Dann erkläre ich die internen Mechanismen, die es LSTMs und Grus ermöglichen, so gut zu funktionieren. Wenn Sie verstehen möchten, was für diese beiden Netzwerke unter der Haube passiert, dann ist dieser Beitrag genau das Richtige für Sie.

Sie können die Videoversion dieses Beitrags auch auf Youtube ansehen, wenn Sie dies vorziehen.

Wiederkehrende neuronale Netze leiden unter Kurzzeitgedächtnis. Wenn eine Sequenz lang genug ist, fällt es ihnen schwer, Informationen von früheren Zeitschritten zu späteren zu übertragen. Wenn Sie also versuchen, einen Textabschnitt zu verarbeiten, um Vorhersagen zu treffen, können RNNs wichtige Informationen von Anfang an auslassen.

Während der Rückausbreitung leiden rekurrente neuronale Netze unter dem Problem des verschwindenden Gradienten. Gradienten sind Werte, die zum Aktualisieren der Gewichte eines neuronalen Netzes verwendet werden. Das Problem mit dem verschwindenden Gradienten besteht darin, dass der Gradient schrumpft, wenn er sich im Laufe der Zeit wieder ausbreitet. Wenn ein Gradientenwert extrem klein wird, trägt er nicht zu viel zum Lernen bei.