Un exemple appliqué: Inscription d’un parti électoral
Regardons un exemple un peu plus réaliste. Supposons que nous ayons un ensemble de données de formation d’électeurs étiquetés chacun avec trois propriétés: l’enregistrement des partis électoraux, la richesse des électeurs et une mesure quantitative de la religiosité des électeurs. Ces données simulées sont représentées en dessous de 2. L’axe des abscisses montre une richesse croissante, l’axe des ordonnées une religiosité croissante et les cercles rouges représentent les électeurs républicains tandis que les cercles bleus représentent les votes démocrates. Nous voulons prédire l’inscription des électeurs en utilisant la richesse et la religiosité comme prédicteurs.
L’algorithme du k-voisin le plus proche
Il existe de nombreuses façons de procéder à cette tâche de modélisation. Pour des données binaires comme la nôtre, des régressions logistiques sont souvent utilisées. Cependant, si nous pensons qu’il existe des non-linéarités dans les relations entre les variables, une approche plus flexible et adaptative aux données pourrait être souhaitée. Une technique d’apprentissage automatique très flexible est une méthode appelée k- Voisins les plus proches.
Chez les k- voisins les plus proches, l’enregistrement du parti d’un électeur donné sera trouvé en le traçant dans l’avion avec les autres électeurs. Les k autres électeurs les plus proches de lui seront trouvés en utilisant une mesure géographique de la distance et la moyenne de leurs inscriptions sera utilisée pour prédire son inscription. Donc, si l’électeur le plus proche de lui (en termes de richesse et de religiosité) est un démocrate, il sera également prédit être un démocrate.
La figure suivante montre les quartiers les plus proches pour chacun des électeurs d’origine. Si k était spécifié comme 1, l’inscription d’un nouveau parti électoral serait déterminée par le fait qu’il se trouve dans une région rouge ou bleue
Si nous avons échantillonné de nouveaux électeurs, nous pouvons utiliser nos données de formation existantes pour prédire leur inscription. La figure suivante trace la richesse et la religiosité de ces nouveaux électeurs et utilise l’algorithme de voisinage le plus proche pour prédire leur inscription. Vous pouvez passer la souris sur un point pour voir le voisinage qui a été utilisé pour créer la prédiction du point.
Nous pouvons également tracer les régions de prédiction complètes pour lesquelles les individus seront classés comme démocrates ou républicains. La figure suivante le montre.
Un élément clé de l’algorithme du Voisinage le plus proche du k est le choix de k. Jusqu’à présent, nous utilisions une valeur de 1 pour k. Dans ce cas, chaque nouveau point est prédit par son voisin le plus proche dans l’ensemble d’entraînement. Cependant, k est une valeur réglable, nous pouvons la définir sur n’importe quoi, de 1 au nombre de points de données dans l’ensemble d’entraînement. Ci-dessous, vous pouvez ajuster la valeur de k utilisée pour générer ces tracés. Au fur et à mesure que vous l’ajustez, les graphiques suivants et précédents seront mis à jour pour montrer comment les prédictions changent lorsque k change.
k – Voisins les plus proches: 1
Générer de nouvelles données d’entraînement Quelle est la meilleure valeur de k? Dans ce cas simulé, nous avons la chance de connaître le modèle réel qui a été utilisé pour classer les électeurs initiaux en tant que républicains ou démocrates. Une simple division a été utilisée et la ligne de démarcation est tracée sur la figure ci-dessus. Les électeurs au nord de la ligne ont été classés comme républicains, les électeurs au sud de la ligne démocrates. Un bruit stochastique a ensuite été ajouté pour modifier une fraction aléatoire des inscriptions des électeurs. Vous pouvez également générer de nouvelles données d’entraînement pour voir comment les résultats sont sensibles aux données d’entraînement d’origine.
Essayez d’expérimenter avec la valeur de k pour trouver le meilleur algorithme de prédiction qui correspond bien à la ligne de limite noire.
Biais et variance
L’augmentation de k entraîne la moyenne d’un plus grand nombre d’électeurs dans chaque prédiction. Il en résulte des courbes de prédiction plus lisses. Avec un k de 1, la séparation entre démocrates et républicains est très irrégulière. De plus, il existe des « îles » de démocrates sur le territoire généralement républicain et vice versa. Comme k est porté à, disons, 20, la transition devient plus fluide et les îles disparaissent et la scission entre démocrates et républicains fait du bon travail pour suivre la ligne de démarcation. À mesure que k devient très grand, disons 80, la distinction entre les deux catégories devient plus floue et la ligne de prédiction des limites ne correspond pas du tout très bien.
Chez les petits k, le décalage et les îles sont des signes de variance. L’emplacement des îles et les courbes exactes des limites changeront radicalement à mesure que de nouvelles données seront recueillies. D’un autre côté, chez les grands k, la transition est très douce, il n’y a donc pas beaucoup de variance, mais l’absence de correspondance avec la ligne de démarcation est un signe de biais élevé.
Ce que nous observons ici, c’est que l’augmentation de k diminuera la variance et augmentera le biais. Alors que la diminution de k augmentera la variance et diminuera le biais. Examinez à quel point les prévisions sont variables pour différents ensembles de données à k faible. À mesure que k augmente, cette variabilité est réduite. Mais si nous augmentons trop k, alors nous ne suivons plus la vraie ligne de limite et nous observons un biais élevé. C’est la nature du compromis Biais-Variance.
Biais et variance analytiques
Dans le cas des k plus proches voisins, nous pouvons dériver une expression analytique explicite de l’erreur totale sous forme de somme du biais et de la variance:
ErErr(x) = \left(f(x)- \frac{1}{k}\sum\limits_{i= 1} ^k f(x_i)\right)^2 +\frac {\sigma_\epsilon^2} {k}+\sigma_\epsilon^2
ErErr(x) = \mathrm {Bias}^2 +\mathrm {Variance} +\mathrm{ Irréductible\Error} $$
Le terme de variance est fonction de l’erreur irréductible et de k, l’erreur de variance diminuant régulièrement à mesure que k augmente. Le terme de biais est fonction de la rugosité de l’espace modèle (par exemple, la rapidité avec laquelle les valeurs changent en réalité lorsque nous nous déplaçons dans l’espace de différentes richesses et religions). Plus l’espace est rugueux, plus le terme de biais augmentera rapidement à mesure que les voisins plus éloignés seront introduits dans les estimations.