Un ejemplo aplicado: Registro de votantes
Veamos un ejemplo un poco más realista. Supongamos que tenemos un conjunto de datos de capacitación de votantes, cada uno etiquetado con tres propiedades: registro de votantes, riqueza de votantes y una medida cuantitativa de la religiosidad de los votantes. Estos datos simulados se representan debajo de 2. El eje X muestra una riqueza creciente, el eje y una religiosidad creciente y los círculos rojos representan a los votantes republicanos, mientras que los círculos azules representan a los votos demócratas. Queremos predecir el registro de votantes utilizando la riqueza y la religiosidad como predictores.
El algoritmo k-Nearest Neighbor
Hay muchas maneras de llevar a cabo esta tarea de modelado. Para datos binarios como el nuestro, a menudo se utilizan regresiones logísticas. Sin embargo, si pensamos que hay no linealidades en las relaciones entre las variables, se podría desear un enfoque más flexible y adaptativo a los datos. Una técnica de aprendizaje automático muy flexible es un método llamado k-Vecinos más cercanos.
En k-Vecinos Más Cercanos, el registro del partido de un votante determinado se encontrará trazándolo en el avión con los otros votantes. Los votantes k más cercanos a él o ella se encontrarán usando una medida geográfica de distancia y el promedio de sus registros se utilizará para predecir su registro. Entonces, si el votante más cercano a él (en términos de riqueza y religiosidad) es un demócrata, también se predice que será demócrata.
La siguiente figura muestra los vecindarios más cercanos para cada uno de los votantes originales. Si se especificó k como 1, el registro de un nuevo partido de votante se determinaría por si se encuentra dentro de una región roja o azul
Si tomamos muestras de nuevos votantes, podemos usar nuestros datos de entrenamiento existentes para predecir su registro. La siguiente figura traza la riqueza y la religiosidad de estos nuevos votantes y utiliza el algoritmo de Vecindario Más Cercano para predecir su registro. Puede pasar el ratón sobre un punto para ver el vecindario que se utilizó para crear la predicción del punto.
También podemos trazar las regiones de predicción completas para donde los individuos serán clasificados como Demócratas o republicanos. La siguiente figura muestra esto.
Una parte clave del algoritmo k-Nearest Neighborhood es la elección de k. Hasta ahora, hemos estado utilizando un valor de 1 para k.En este caso, cada nuevo punto es predicho por su vecino más cercano en el conjunto de entrenamiento. Sin embargo, k es un valor ajustable, podemos configurarlo en cualquier valor, desde 1 hasta el número de puntos de datos en el conjunto de entrenamiento. A continuación puede ajustar el valor de k utilizado para generar estas gráficas. A medida que lo ajuste, tanto las gráficas siguientes como las anteriores se actualizarán para mostrar cómo cambian las predicciones cuando cambia k.
k-Vecinos más cercanos: 1
Generar Nuevos Datos de Entrenamiento ¿Cuál es el mejor valor de k? En este caso simulado, tenemos la suerte de conocer el modelo real que se utilizó para clasificar a los votantes originales como republicanos o demócratas. Se utilizó una división simple y la línea divisoria se traza en la figura anterior. Los votantes al norte de la línea eran clasificados como republicanos, los votantes al sur de la línea eran demócratas. Se agregó un poco de ruido estocástico para cambiar una fracción aleatoria de las inscripciones de votantes. También puede generar nuevos datos de entrenamiento para ver cómo los resultados son sensibles a los datos de entrenamiento originales.
Intente experimentar con el valor de k para encontrar el mejor algoritmo de predicción que coincida bien con la línea de límite negra.
Sesgo y Varianza
El aumento de k resulta en el promedio de más votantes en cada predicción. Esto da como resultado curvas de predicción más suaves. Con una k de 1, la separación entre demócratas y republicanos es muy irregular. Además, hay «islas» de demócratas en territorio generalmente republicano y viceversa. A medida que k aumenta a, digamos, 20, la transición se suaviza y las islas desaparecen y la división entre demócratas y republicanos hace un buen trabajo al seguir la línea fronteriza. A medida que k se vuelve muy grande, digamos, 80, la distinción entre las dos categorías se vuelve más borrosa y la línea de predicción de límite no se corresponde muy bien en absoluto.
En k pequeñas, el jaggedness y las islas son signos de variación. La ubicación de las islas y las curvas exactas de los límites cambiarán radicalmente a medida que se recojan nuevos datos. Por otro lado, en las k grandes la transición es muy suave, por lo que no hay mucha variación, pero la falta de coincidencia con la línea de límite es un signo de sesgo alto.
Lo que estamos observando aquí es que el aumento de k disminuirá la varianza y aumentará el sesgo. Mientras que la disminución de k aumentará la varianza y disminuirá el sesgo. Eche un vistazo a cuán variables son las predicciones para diferentes conjuntos de datos a k bajo. A medida que k aumenta, esta variabilidad se reduce. Pero si aumentamos k demasiado, entonces ya no seguimos la línea límite verdadera y observamos un sesgo alto. Esta es la naturaleza de la Compensación de Sesgo-Varianza.
Sesgo analítico y Varianza
En el caso de k-Vecinos Más Cercanos podemos derivar una expresión analítica explícita para el error total como suma de sesgo y varianza:
$$ Err(x) = \left(f(x)-\frac{1}{k}\sum\limits_{i=1}^k f(x_i)\derecho)^2+\frac{\sigma_\epsilon^2}{k} + \sigma_\epsilon^2 $$
$$ Err(x) = \mathrm{Sesgo}^2 + \mathrm{Varianza} + \mathrm{Irreductible\ Error} $$
La varianza término es una función de la irreductible de error y k con la varianza de error cayendo lentamente a medida que k aumenta. El término sesgo es una función de cuán áspero es el espacio modelo (por ejemplo, cuán rápido en realidad cambian los valores a medida que nos movemos por el espacio de diferentes riquezas y religiones). Cuanto más áspero sea el espacio, más rápido aumentará el término de sesgo a medida que los vecinos más lejanos se incluyan en las estimaciones.