Reti neurali multi-classe: Softmax

Ricordiamo che la regressione logistica produce un numero decimale tra 0 e 1.0. Ad esempio, un output di regressione logistica di 0,8 da un classificatore di posta elettronica suggerisce un 80% di possibilità che anemail sia spam e un 20% di possibilità che non sia spam. Chiaramente, la somma delle probabilità di un’e-mail che è spam o non spam è 1.0.

Softmax estende questa idea in un mondo multi-classe. Cioè, Softmax assegna probabilità decimali a ciascuna classe in un problema multi-classe.Queste probabilità decimali devono aggiungere fino a 1.0. Questa ulteriore formazione constrainthelps convergono più rapidamente di quanto sarebbe altrimenti.

Per esempio, tornando all’analisi dell’immagine che abbiamo visto in Figura 1, Softmaxmight produrre la seguente verosimiglianze di un’immagine che appartiene a un particolare classe:

Classe Probabilità
apple 0.001
bear 0.04
candy 0.008
dog 0.95
egg 0.001

Softmax è implementato attraverso uno strato di rete neurale appena prima dello strato di output. Il livello Softmax deve avere lo stesso numero di nodicome il livello di output.

Una rete neurale profonda con un livello di input, due livelli nascosti anonimi, quindi un livello Softmax e infine un livello di output con lo stesso numero di nodi del livello Softmax.

Figura 2. Uno strato Softmax all’interno di una rete neurale.

Fare clic sull’icona più per visualizzare l’equazione Softmax.

Il Softmax equazione è come indicato di seguito:

$$p(y = j|\textbf{x}) = \frac{e^{(\textbf{w}_j^{T}\textbf{x} + b_j)}}{\sum_{k\in K} {e^{(\textbf{w}_k^{T}\textbf{x} + b_k)}} }$$

si noti che questa formula fondamentalmente si estende la formula per logisticregression in più classi.

Opzioni Softmax

Considera le seguenti varianti di Softmax:

  • Full Softmax è il Softmax di cui abbiamo discusso; cioè, Softmax calcola una probabilità per ogni classe possibile.

  • Campionamento candidato significa che Softmax calcola una probabilità per tutte le etichette positive ma solo per un campione casuale di etichette negative. Ad esempio, se siamo interessati a determinare se un’immagine di input è un beagle o un segugio, non abbiamo probabilità di fornire per ogni esempio non doggy.

Full Softmax è abbastanza economico quando il numero di classi è piccoloma diventa proibitivo quando il numero di classi sale.Il campionamento dei candidati può migliorare l’efficienza nei problemi con un grandenumero di classi.

Un’etichetta rispetto a molte etichette

Softmax presuppone che ogni esempio sia un membro di esattamente una classe.Alcuni esempi, tuttavia, possono essere contemporaneamente membri di più classi.Per tali esempi:

  • Non è possibile utilizzare Softmax.
  • Devi fare affidamento su più regressioni logistiche.

Ad esempio, supponiamo che i tuoi esempi siano immagini contenenti esattamente un elemento—a testa di frutta. Softmax può determinare la probabilità di quella itembeing una pera, un’arancia, una mela, e così via. Se i tuoi esempi sono immaginicontenenti ogni sorta di cose—ciotole di diversi tipi di frutta-allora dovrai invece usare più regressioni logistiche.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.