Redes Neurais de várias classes: Softmax

lembre-se que a regressão logística produz uma decimal entre 0 e 1.0. Por exemplo, uma regressão logística de 0,8 de um classificador de E-mail sugere uma probabilidade de 80% de anemail ser spam e 20% de não ser spam. Claramente, a soma das probabilidades de um email ser spam ou não spam é 1.0.

Softmax estende esta ideia para um mundo multi-classe. Isto é, Softmax atribui probabilidades decimais para cada classe em um problema multi-classe.Essas probabilidades decimais devem somar-se a 1,0. Este constrangimento adicional na formação dos formandos converge mais rapidamente do que de outra forma.

Por exemplo, voltando à análise da imagem vimos na Figura 1, Softmaxmight produzir a seguinte probabilidade de uma imagem pertencentes especialmente ajudando a classe:

Classe Probabilidade
apple 0.001
urso 0.04
doces 0.008
cão 0.95
ovo 0.001

Softmax é implementado através de uma rede neural camada beforethe camada de saída. A camada de Softmax deve ter o mesmo número de nodes como a camada de saída.

a deep neural net with an input layer, two nondescript hidden layers, then a Softmax layer, and finally an output layer with the same number of nodes as the Softmax layer.

Figura 2. Uma camada de Softmax dentro de uma rede neural.

clique no ícone mais para ver a equação de Softmax.

A Softmax equação é a seguinte:

$$p(y = j|\textbf{x}) = \frac{e^{(\textbf{w}_j^{T}\textbf{x} + b_j)}}{\sum_{k\K} {e^{(\textbf{w}_k^{T}\textbf{x} + b_k)}} }$$

Note que esta fórmula, basicamente, estende-se a fórmula para logisticregression em várias classes.

opções de Softmax

considere as seguintes variantes de Softmax:

  • Full Softmax é a Softmax que temos discutido; isto é, Softmax calcula uma probabilidade para cada classe possível.

  • amostragem candidata significa que a Softmax calcula uma probabilidade para todos os rótulos positivos, mas apenas para uma amostra aleatória de rótulos negativos. Por exemplo, se estamos interessados em determinar se uma imagem de entrada é um beagle ou um bloodhound, não temos probabilidades para cada exemplo não-doggy.

Softmax completo é bastante barato quando o número de classes é pequeno mas torna-se proibitivamente caro quando o número de classes sobe.A amostragem de candidatos pode melhorar a eficiência nos problemas com um grande número de turmas.

uma etiqueta vs. muitas etiquetas

Softmax assume que cada exemplo é um membro de exatamente uma classe.Alguns exemplos, no entanto, podem simultaneamente ser membros de várias classes.Para estes exemplos:

  • Não pode utilizar Softmax.deve confiar em múltiplas regressões logísticas.

por exemplo, suponha que seus exemplos sejam imagens contendo exatamente um item-cada um dos frutos. A Softmax pode determinar a probabilidade de que um se junte a uma pêra, uma laranja, uma maçã, e assim por diante. Se seus exemplos são imagens que contêm todos os tipos de coisas—tigelas de diferentes tipos de frutas—então você terá que usar várias regressões logísticas em vez disso.

Deixe uma resposta

O seu endereço de email não será publicado.