Recuerde que la regresión logística produce un decimal entre 0 y 1.0. Por ejemplo, una salida de regresión logística de 0,8 de un clasificador de correo electrónico sugiere un 80% de probabilidad de que un correo electrónico sea spam y un 20% de probabilidad de que no sea spam. Claramente, la suma de las probabilidades de que un correo electrónico sea spam o no spam es 1.0.
Softmax extiende esta idea a un mundo de múltiples clases. Es decir, Softmax asigna probabilidades decimales a cada clase en un problema de varias clases.Esas probabilidades decimales deben sumar 1.0. Estas limitaciones adicionales ayudan a la formación a converger más rápidamente de lo que lo haría de otro modo.
Por ejemplo, volviendo al análisis de la imagen se vio en la Figura 1, Softmaxmight producir las siguientes probabilidades de una imagen perteneciente a aparticular clase:
Clase | Probabilidad |
---|---|
apple | 0.001 |
oso | 0.04 |
candy | 0.008 |
dog | 0.95 |
egg | 0.001 |
Softmax se implementa a través de una capa de red neuronal justo antes de la salida capa. La capa Softmax debe tener el mismo número de nodos que la capa de salida.
Figura 2. Una capa de máxima seguridad dentro de una red neuronal.
Haga clic en el icono más para ver la ecuación de Softmax.
El Softmax ecuación es la siguiente:
tenga en cuenta que esta fórmula básicamente extiende la fórmula para logisticregression en varias clases.
Opciones de Softmax
Considere las siguientes variantes de Softmax:
-
Full Softmax es el Softmax que hemos estado discutiendo; es decir, Softmax calcula una probabilidad para cada clase posible.
-
El muestreo candidato significa que Softmax calcula una probabilidad para todas las etiquetas positivas, pero solo para una muestra aleatoria de etiquetas negativas. Por ejemplo, si estamos interesados en determinar si una imagen de entrada es un beagle o un sabueso, no tenemos probabilidades de proporcionar para cada ejemplo que no sea de perro.
Full Softmax es bastante barato cuando el número de clases es pequeño, pero se vuelve prohibitivamente caro cuando el número de clases aumenta.El muestreo candidato puede mejorar la eficiencia en problemas que tienen un gran número de clases.
Una etiqueta frente a muchas Etiquetas
Softmax asume que cada ejemplo es un miembro de exactamente una clase.Algunos ejemplos, sin embargo, pueden ser simultáneamente miembros de varias clases.Para estos ejemplos:
- No puede usar Softmax.
- Debe confiar en múltiples regresiones logísticas.
Por ejemplo, supongamos que sus ejemplos son imágenes que contienen exactamente un elemento, cada uno de fruta. Softmax puede determinar la probabilidad de que uno sea una pera, una naranja, una manzana, etc. Si sus ejemplos son imágenes que contienen todo tipo de cosas, cuencos de diferentes tipos de frutas, entonces tendrá que usar múltiples regresiones logísticas en su lugar.