a lineáris regresszióban nem lehet könnyen használni a kategorikus változókat prediktorként: fel kell bontani őket dichotóm változókra, amelyeket dummy változóknak neveznek.
Ezek létrehozásának ideális módja a dummy változók eszköz. Ha nem akarja használni ezt az eszközt, akkor ez az oktatóanyag megmutatja a helyes módszert manuálisan.
- I. példa – bármely Numerikus változó
- II. példa-Numerikus változó szomszédos egész számokkal
- III. példa-karakterlánc változó konverzióval
- IV. példa-karakterlánc változó átalakítás nélkül
példa adatfájl
Ez az oktatóanyag személyzetet használ.sav egész. Az adatfájl egy része az alábbiakban látható.
I. példa – bármely Numerikus változó
először hozzunk létre dummy változókat A marit számára, rövidítve a családi állapotot. Az első lépés az, hogy fut egy alapfrekvenciák tábla withfrequencies marit.Az alábbi táblázat a kapott táblázatot mutatja.
tehát hogyan lehet a családi állapotot dummy változókra bontani? Először mindig kihagyunk egy kategóriát, a referenciakategóriát. Bármelyik kategóriát választhatja referenciakategóriának.
tehát ebben a példában az 5-et választjuk (Özvegy). Ez azt jelenti, hogy 3 dummy változót hozunk létre, amelyek az 1., 2. és 4. kategóriákat képviselik (vegye figyelembe, hogy a 3 nem fordul elő ebben a változóban).
az alábbi szintaxis megmutatja, hogyan lehet létrehozni és címkézni a 3 dummy változót. Futtassuk le.
számítsa ki a marit_1 = (marit = 1) értéket.
számítsa ki a marit_2 = (marit = 2) értéket.
számítsa ki a marit_4 = (marit = 4) értéket.
* alkalmazza a változó címkéket a dummy változókra.
változó címkék
marit_1 ‘családi állapot = soha nem házas’
marit_2 ‘családi állapot = jelenleg házas’
marit_4 ‘családi állapot = Elvált’.
*gyors ellenőrzés első dummy változó
frekvenciák marit_1.
eredmények
először is, vegye figyelembe, hogy 3 szépen címkézett dummy változót hoztunk létre az aktív adatkészletünkben.
az alábbi táblázat az első dummy változó frekvenciaeloszlását mutatja.
vegye figyelembe, hogy a dummy változó rendelkezik 3 különböző értékek:
- válaszadók, akiknek családi állapota nem” soha nem házas “pontszám 0;
- válaszadók, akiknek családi állapota” soha nem házas ” pontszám 1;
- válaszadók, akiknek családi állapota egy hiányzó érték (és ezért ismeretlen) van egy rendszer hiányzó érték.
most alaposabban ellenőrizhetjük az eredményeket a marit_1-től marit_4-ig történő futással.Ezzel 3 készenléti táblázatot hoz létre, amelyek közül az első az alábbiakban látható.
a mi dummy változó,
válaszadók, amelyek más családi állapotok, mint a” soha nem házas”minden pontszám 0;
válaszadók, akik “soha nem házas” minden pontszám 1;
a minta mérete N = 170 (ez a táblázat csak azokat a válaszadókat tartalmazza, akiknek egyik változón sem hiányoznak az értékek).
adott esetben egy végső-nagyon alapos-ellenőrzés az eredeti változó ANOVA eredményeinek összehasonlítása a regressziós eredményekkel dummy változóink segítségével. Az alábbi szintaxis éppen ezt teszi, havi fizetést használva függő változóként.
regresszió
/függő fizetés
/módszer írja be a marit_1-et a marit_4-hez.
*minimális ANOVA az eredeti változó használatával.
oneway fizetés marit.
vegye figyelembe, hogy mindkét elemzés azonos ANOVA táblázatokat eredményez. Megbeszéljük ANOVA versus dummy változó regresszió alaposabban egy jövőbeli bemutató.
példa II-Numerikus változó szomszédos Egészekkel
most létrehozunk dummy változókat a régióhoz. Ismét azzal kezdjük, hogy megvizsgálunk egy minimális frekvenciatáblázatot, amelyet a runningfrequencies region segítségével hozunk létre.Ennek eredménye az alábbi táblázat.
referenciakategóriánkként az 1-et (“Észak”) választjuk. Ezért dummy változókat hozunk létre a 2-5.kategóriákhoz. Mivel ezek szomszédos egész számok, felgyorsíthatjuk a dolgokat a DO REPEAT használatával az alábbiak szerint.
ismételje meg a #vals = 2-től 5-ig / #vars = region_2-től region_5-ig.
recode régió (#vals = 1)(lo keresztül hi = 0) a #vars.
vége ismétlés nyomtatás.
*változócímkék alkalmazása új változókra.
változó címkék
region_2 ‘Region = East’
region_3 ‘Region = South’
region_4 ‘Region = West’
region_5 ‘Region = Top 4 City’.
*gyors ellenőrzés.
crosstabs régió region_2 hogy region_5.
a kapott táblázatok gondos ellenőrzése megerősíti, hogy minden eredmény helyes.
példa III-String változó konverzióval
sajnos az első 2 módszerünk nem működik olyan string változóknál, mint a jtype-a “job type”rövidítése). A legegyszerűbb megoldás az, ha numerikus változóvá konvertálja, amint azt az SPSS tárgyalja a karakterlánc konvertálása numerikus változóvá. Az alábbi szintaxis az AUTORECODE-ot használja a munka elvégzéséhez.
jtype
/automatikus kódolása njtype-ba.
*ellenőrizze az eredményt.
frekvenciák njtype.
* állítsa be a hiányzó értékeket.
hiányzó értékek njtype (1,2).
*ellenőrizze újra az eredményt.
frekvenciák njtype.
eredmény
mivel az njtype-a” numerikus feladat típusa ” rövidítése – egy Numerikus változó, most már használhatjuk az I vagy II módszert a dummy változók felosztására.
példa IV-String változó átalakítás nélkül
a string változók numerikus változókká konvertálása a könnyű dummy változók létrehozása számukra. Ezen átalakítás nélkül a folyamat nehézkes, mert az SPSS nem kezeli megfelelően a karakterlánc-változók hiányzó értékeit. Az alábbi szintaxis azonban helyesen végzi el a munkát.
frekvenciák jtype.
*véletlen ‘ (ismeretlen) ‘a’NA’.
recode jtype (‘(ismeretlen)’ = ‘NA’).
*állítsa be a felhasználó hiányzó értékeit.
hiányzó értékek jtype ( ” , “NA”).
*ellenőrizze újra a frekvenciákat.
frekvenciák jtype.
*create dummy változók string változó.
if (nem hiányzik (jtype)) jtype_1 = (jtype = ‘IT’).
if (nem hiányzik (jtype)) jtype_2 = (jtype = ‘menedzsment’).
if (nem hiányzik (jtype)) jtype_3 = (jtype = ‘értékesítés’).
if (nem hiányzik (jtype)) jtype_4 = (jtype = ‘személyzet’).
* alkalmazza a változó címkéket a dummy változókra.
változó címkék
jtype_1 ‘feladat típusa = IT’
jtype_2 ‘feladat típusa = menedzsment’
jtype_3 ‘feladat típusa = értékesítés’
jtype_4 ‘feladat típusa = személyzet’.
*ellenőrizze az eredményeket.
a jtype-t jtype_1-től jtype_4-ig keresztezi.
Záró megjegyzések
dummy változók létrehozása numerikus változókhoz gyorsan és egyszerűen elvégezhető. A megfelelő változó címkék beállítása azonban mindig egy kis munkát igényel. String változók igényel néhány extra lépés(ek), de elég megvalósítható is.
ennek ellenére a legegyszerűbb lehetőség az SPSS create Dummy változók eszköz, mivel tökéletesen gondoskodik mindenről.