een toegepast voorbeeld: kiezer partij registratie
laten we eens kijken naar een iets realistischer voorbeeld. Stel dat we een training data set van kiezers elk gelabeld met drie eigenschappen: kiezer partij registratie, kiezer rijkdom, en een kwantitatieve maatregel van kiezer religiousness. Deze gesimuleerde gegevens worden hieronder weergegeven. De x-as toont toenemende rijkdom, de y-as toenemende religiositeit en de rode cirkels vertegenwoordigen Republikeinse kiezers, terwijl de blauwe cirkels Democratische stemmen vertegenwoordigen. We willen kiezersregistratie voorspellen met rijkdom en religiositeit als voorspellers.
het K-dichtstbijzijnde Buuralgoritme
Er zijn veel manieren om deze modelleringstaak uit te voeren. Voor binaire gegevens zoals de Onze worden vaak logistieke regressies gebruikt. Als we echter denken dat er niet-lineariteiten zijn in de relaties tussen de variabelen, zou een meer flexibele, data-adaptieve benadering gewenst kunnen zijn. Een zeer flexibele machine-learning techniek is een methode genaamd k-Dichtstbijzijnde buren.
In k-naaste buren wordt de partijregistratie van een bepaalde kiezer gevonden door hem of haar in het vliegtuig samen met de andere kiezer te plotten. De dichtstbijzijnde K andere kiezers om hem of haar zal worden gevonden met behulp van een geografische maat van de afstand en het gemiddelde van hun registraties zal worden gebruikt om zijn of haar registratie te voorspellen. Dus als de meest nabije kiezer (in termen van rijkdom en religiositeit) een democraat is, dan wordt voorspeld dat hij ook een democraat is.
de volgende figuur toont de dichtstbijzijnde buurten voor elk van de oorspronkelijke kiezers. Als k werd gespecificeerd als 1, zou de registratie van een nieuwe Kiezer worden bepaald door of zij binnen een rode of blauwe regio vallen
als we nieuwe kiezers hebben geselecteerd, kunnen we onze bestaande trainingsgegevens gebruiken om hun registratie te voorspellen. De volgende figuur zet de rijkdom en religiositeit voor deze nieuwe kiezers en maakt gebruik van de dichtstbijzijnde wijk algoritme om hun registratie te voorspellen. U kunt de muis over een punt bewegen om de buurt te zien die werd gebruikt om de voorspelling van het punt te maken.
we kunnen ook de volledige voorspellings regio ‘ s plotten waar individuen geclassificeerd zullen worden als Democraten of Republikeinen. De volgende figuur toont dit.
een belangrijk onderdeel van het algoritme K-dichtstbijzijnde buurt is de keuze van k. tot nu toe hebben we een waarde van 1 Voor k gebruikt. in dit geval wordt elk nieuw punt voorspeld door zijn naaste buur in de trainingsset. K is echter een instelbare waarde, we kunnen deze instellen op iets van 1 tot het aantal datapunten in de trainingsset. Hieronder kunt u de waarde van k aanpassen die gebruikt wordt om deze plots te genereren. Terwijl u het aanpast, worden zowel de volgende als de voorgaande plots bijgewerkt om te laten zien hoe voorspellingen veranderen wanneer k verandert.
k-Dichtstbijzijnde buren: 1
Genereer nieuwe trainingsgegevens Wat is de beste waarde van k? In dit gesimuleerde geval hebben we het geluk dat we het werkelijke model kennen dat werd gebruikt om de oorspronkelijke kiezers te classificeren als Republikeinen of Democraten. Er werd een eenvoudige splitsing gebruikt en de scheidslijn is in bovenstaande figuur uitgezet. Kiezers ten noorden van de lijn werden geclassificeerd als Republikeinen, kiezers ten zuiden van de lijn Democraten. Wat stochastische ruis werd vervolgens toegevoegd om een willekeurige fractie van de registraties van kiezers te veranderen. U kunt ook nieuwe trainingsgegevens genereren om te zien hoe de resultaten gevoelig zijn voor de oorspronkelijke trainingsgegevens.
probeer te experimenteren met de waarde van k om het beste voorspellingsalgoritme te vinden dat goed overeenkomt met de zwarte grenslijn.
Bias en variantie
toename van k resulteert in het gemiddelde van meer kiezers in elke voorspelling. Dit resulteert in vloeiendere voorspellingscurven. Met een k van 1 is de scheiding tussen Democraten en Republikeinen erg scherp. Verder zijn er” eilanden ” van Democraten in het algemeen Republikeinse grondgebied en vice versa. Als k wordt verhoogd tot, Laten we zeggen, 20, de overgang wordt soepeler en de eilanden verdwijnen en de splitsing tussen Democraten en Republikeinen doet een goed werk van het volgen van de grenslijn. Als k erg groot wordt, zeg, 80, wordt het onderscheid tussen de twee categorieën meer wazig en wordt de grensvoorspellingslijn helemaal niet goed afgestemd.
bij kleine k ‘ s zijn de jaggerness en eilanden tekenen van variantie. De locaties van de eilanden en de precieze curven van de grenzen zullen radicaal veranderen naarmate nieuwe gegevens worden verzameld. Aan de andere kant, bij grote k ‘ S is de overgang erg soepel dus er is niet veel variantie, maar het ontbreken van een match met de grenslijn is een teken van hoge bias.
wat we hier waarnemen is dat het verhogen van k de variantie zal verminderen en de bias zal verhogen. Terwijl het verminderen van k zal verhogen variantie en afname bias. Kijk eens hoe variabel de voorspellingen zijn voor verschillende datasets bij lage k. naarmate k toeneemt, wordt deze variabiliteit verminderd. Maar als we k te veel verhogen, dan volgen we niet langer de ware grenslijn en nemen we hoge vooringenomenheid waar. Dit is de aard van de vooringenomenheid-variantie afweging.
analytische Bias en variantie
in het geval van k-naaste buren kunnen we een expliciete analytische expressie afleiden voor de totale fout als een optelling van bias en variantie:
$$ Err(x) = \left(f(x)-\frac{1}{k}\sum\limits_{i=1}^k f(x_i)\right)^2+\frac{\sigma_\epsilon^2}{k} + \sigma_\epsilon^2 $$
$$ Err(x) = \mathrm{Bias}^2 + \mathrm{Variantie} + \mathrm{Onherleidbare\ Error} $$
De variantie termijn is een functie van de absolute fout en k met de variantie fout gestaag gedaald, als k toeneemt. De bias term is een functie van hoe ruw de modelruimte is (bijvoorbeeld hoe snel in werkelijkheid veranderen waarden als we door de ruimte van verschillende rijkdommen en religiositeiten bewegen). Hoe ruwer de ruimte, hoe sneller de bias term zal toenemen als verder weg buren worden gebracht in schattingen.