Bias ja varianssi

sovellettu esimerkki: Äänestäjäpuolueen rekisteröinti

katsotaan hieman realistisempi esimerkki. Oletetaan, että meillä on koulutusaineisto äänestäjistä, joista jokainen on merkitty kolmella ominaisuudella: äänestäjäpuolueen rekisteröinti, äänestäjien varallisuus ja äänestäjien uskonnollisuuden määrällinen mitta. Nämä simuloidut tiedot piirretään alle 2. X-akseli osoittaa kasvavaa varallisuutta, y-akseli kasvavaa uskonnollisuutta ja punaiset piirit edustavat Republikaaniäänestäjiä kun taas siniset edustavat demokraattien ääniä. Haluamme ennustaa äänestäjien rekisteröintiä varallisuuden ja uskonnollisuuden avulla ennustajina.

uskonnollisuus →

varallisuus →

hypoteettinen puoluerekisteröinti. Piirretään uskonnollisuus (y-akseli) vs. rikkaus (x-akseli).

k-lähinaapurin algoritmi

tätä mallinnustehtävää voi hoitaa monella tavalla. Binäärisessä datassa, kuten meillä, käytetään usein logistisia regressioita. Jos kuitenkin ajattelemme, että muuttujien välisissä suhteissa on ei-lineaarisia piirteitä, voidaan haluta joustavampaa, dataan mukautuvaa lähestymistapaa. Yksi hyvin joustava koneoppimistekniikka on menetelmä, jota kutsutaan K-Lähimmiksi naapureiksi.

k-lähimmissä naapureissa tietyn äänestäjän puoluerekisteröinti selviää juonimalla hänet lentokoneeseen muiden äänestäjien kanssa. Lähin k muut Äänestäjät häntä etsitään käyttäen maantieteellistä mitta etäisyyden ja keskiarvo niiden rekisteröinnit käytetään ennustaa hänen rekisteröintiä. Jos häntä lähin äänestäjä (varallisuuden ja uskonnollisuuden suhteen) on demokraatti, hänen ennustetaan myös olevan demokraatti.

seuraavassa kuviossa on esitetty kunkin alkuperäisen äänestäjän lähimmät kaupunginosat. Jos k määriteltäisiin numeroksi 1, Uuden äänestäjäpuolueen rekisteröinti määräytyisi sen mukaan, kuuluvatko he johonkin punaiseen vai siniseen alueeseen

lähimmät kaupunginosat koulutusaineiston jokaiselle pisteelle.

Jos otimme näytteitä uusista äänestäjistä, Voimme käyttää olemassa olevia koulutustietojamme heidän rekisteröintinsä ennustamiseen. Seuraava kuva piirtää näiden uusien äänestäjien varallisuuden ja uskonnollisuuden ja käyttää lähimmän naapuruston algoritmia heidän rekisteröintinsä ennustamiseen. Voit siirtää hiiren pisteen yli nähdäksesi naapurustossa, jota käytettiin luomaan pisteen ennustus.

lähimmät naapuriennusteet uusille tiedoille. Leiju pisteen yllä nähdäksesi, mitä naapurustoa käytetään ennustamiseen.

voimme myös piirtää täydet ennustusalueet, joilla yksilöt luokitellaan joko demokraateiksi tai Republikaaneiksi. Seuraava kuva osoittaa tämän.

keskeinen osa k: n lähimmän naapuruston algoritmia on K: n valinta. tähän asti olemme käyttäneet K: lle arvoa 1. tällöin jokainen uusi piste on ennustettu sen lähimmän naapurin mukaan harjoitusjoukossa. K on kuitenkin säädettävissä oleva arvo, voimme asettaa sen mihin tahansa 1: stä harjoitussarjan datapisteiden määrään. Alla voit säätää arvoa K käytetään tuottamaan näitä tontteja. Kun säädät sitä, sekä seuraavat että edeltävät kuviot päivitetään näyttämään, miten ennusteet muuttuvat k: n muuttuessa.

K-lähimmät naapurit: 1

lähimmät naapurin ennustealueet. Vaaleammat värit kertovat vähemmän varmuutta ennusteista. K: n arvoa voi säätää.

luo uutta Harjoitustietoa mikä on K: n paras arvo? Tässä simuloidussa tapauksessa olemme onnekkaita, koska tiedämme todellisen mallin, jolla alkuperäiset Äänestäjät luokiteltiin Republikaaneiksi tai demokraateiksi. Käytettiin yksinkertaista jakoa, ja jakolinja piirretään yllä olevaan kuvaan. Linjan pohjoispuolella Äänestäjät luokiteltiin Republikaaneiksi, linjan eteläpuolella Äänestäjät demokraateiksi. Jonkin verran stokastista kohinaa lisättiin sitten muuttamaan satunnaista murto-osaa äänestäjien rekisteröinneistä. Voit myös luoda uusia harjoitustietoja nähdäksesi, miten tulokset ovat herkkiä alkuperäisille harjoitustietoille.

yritä kokeilla K: n arvoa löytääksesi parhaan ennustusalgoritmin, joka sopii hyvin yhteen mustan rajaviivan kanssa.

harha-ja varianssi

k: n lisääntyminen johtaa siihen, että kussakin ennusteessa lasketaan keskimäärin enemmän äänestäjiä. Tämä johtaa tasaisempiin ennustekäyriin. Kun K ON 1, ero demokraattien ja republikaanien välillä on hyvin rosoinen. Lisäksi yleensä republikaanien alueella on demokraattien ”saarekkeita” ja päinvastoin. Kun k kasvaa vaikkapa 20: een, siirtymävaihe muuttuu tasaisemmaksi ja saaret katoavat ja jako demokraattien ja republikaanien välillä tekee hyvää noudattaa rajalinjaa. Kun k: sta tulee hyvin suuri, vaikkapa 80, näiden kahden kategorian välinen ero hämärtyy ja rajan ennustuslinja ei täsmää kovin hyvin lainkaan.

pienillä k: lla jaggedness ja saaret ovat varianssin merkkejä. Saarten sijainnit ja rajojen tarkat käyrät muuttuvat radikaalisti, kun uutta tietoa saadaan. Toisaalta, suuri k: n siirtyminen on hyvin sileä, joten ei ole paljon varianssi, mutta puute ottelu rajaviivan on merkki korkea bias.

havaitsemme tässä, että K: n lisääminen vähentää varianssia ja lisää harha-aistimuksia. Vaikka vähentämällä k lisää varianssi ja vähentää bias. Katso, kuinka vaihtelevia ennusteet ovat eri tietojoukoille alhaisella k: lla.K: n kasvaessa tämä vaihtelu vähenee. Mutta jos lisäämme k: ta liikaa, emme enää noudata todellista rajalinjaa ja havaitsemme suurta puolueellisuutta. Tämä on Bias-varianssi Tradeoff luonne.

analyyttinen harha ja varianssi

k-lähimpien naapureiden tapauksessa voidaan johtaa eksplisiittinen analyyttinen lauseke kokonaisvirheelle harhan ja varianssin summana:

$$ Err(x) = \left(f(x)-\frac{1}{k}\sum\limits_{I=1}^k f(x_i)\right)^2+\frac{\sigma_\epsilon^2}{k} + \sigma_\epsilon^2 $$

$$ Err(x) = \mathrm{Bias}^2 + \mathrm{Variance} + \mathrm{irreducible\ error} $$

varianssitermi on funktio irreducible error ja K, jonka varianssivirhe laskee tasaisesti k: n kasvaessa. Bias-termi on funktio siitä, kuinka karkea malliavaruus on (esimerkiksi kuinka nopeasti todellisuudessa arvot muuttuvat, kun liikumme eri rikkauksien ja uskonnollisuuden tilan läpi). Mitä karkeampi tila, sitä nopeammin bias-termi kasvaa, kun kauempaa naapureita tuodaan arvioihin.

Vastaa

Sähköpostiosoitettasi ei julkaista.