Beschrijvende statistieken met behulp van de opdracht summarize | Stata geannoteerde uitvoer

deze pagina toont een voorbeeld van het verkrijgen van beschrijvende statistieken met behulp van de opdracht summarize met voetnoten die de uitvoer verklaren. In het eerste voorbeeld krijgen we de beschrijvende statistieken voor een 0/1 (dummy) variabele genaamd female. Deze variabele wordt gecodeerd 1 als de student vrouwelijk was, en 0 anders. In het tweede voorbeeld, krijgen we de beschrijvende statistieken voor een continue variabele genaamd schrijven, dat was de score studenten ontvangen op een schrijftest. We gebruiken de detailoptie om aanvullende informatie te krijgen, waaronder percentielen, scheefheid en kurtose. U hoeft niet de detail optie te gebruiken met alle continue variabelen.

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2(highschool and beyond (200 cases))
summarize female
 Variablea| Obsb Meanc Std. Dev.d Mine Maxf-------------+-------------------------------------------------------- female | 200 .545 .4992205 0 1

a. variabele – deze kolom geeft aan welke variabele wordt beschreven. U kunt meer dan één variabele weergeven na het samenvatten Commando; wanneer u dat doet, zult u elke variabele op zijn eigen regel van de uitvoer zien.

b. Obs-deze kolom geeft u het aantal waarnemingen (of gevallen) die geldig waren (d.w.z., niet ontbrekend) voor die variabele. Als je 200 waarnemingen in je dataset had, maar je had 10 ontbrekende waarden voor de variabele vrouw, dan zou het getal in deze kolom 190 zijn.

c. gemiddelde-Dit is het gemiddelde van de variabele. In dit geval, onze variabele vrouwelijke varieert van 0 tot 1 (de min en max waarden), dus het gemiddelde is eigenlijk het aandeel van de waarnemingen gecodeerd als 1.

d. Std. Dev. – Dit is de standaardafwijking van de variabel. Dit geeft informatie over de spreiding van de verdeling van de variabele.

summarize write, detail
 writing score------------------------------------------------------------- Percentiles Smallesti 1%e 31 31 5% 35.5 3110% 39 31 Obsb 20025%f 45.5 31 Sum of Wgt.k 200
50%g 54 Meanc 52.775 Largestj Std. Dev.d 9.47858675%h 60 6790% 65 67 Variancel 89.8435995% 65 67 Skewnessm -.478415899% 67 67 Kurtosisn 2.238527

e. 1% – Dit is het eerste percentiel. Percentielen worden berekend door de waarden van een variabele te rangschikken van LAAGSTE naar hoogste, en vervolgens de waarde te vinden die overeenkomt met welk percentage u geïnteresseerd bent in, in dit geval, 1%. Daarom is 1% van de waarden van de variabele write gelijk aan of kleiner dan 31.

f. 25% – Dit is het 25e percentiel, ook bekend als het eerste kwartiel.

g. 50% – Dit is het 50e percentiel, ook bekend als de mediaan. Als je de waarden van de variabele van LAAGSTE naar hoogste rangord, zou de mediaan de waarde precies in het midden zijn. Met andere woorden, de helft van de waarden zou onder de mediaan, en de helft zou boven zijn. Dit is een goede maat voor de centrale tendens als de variabele uitschieters heeft.

h. 75% – Dit is het 75e percentiel, ook bekend als het derde kwartiel.

i. kleinste-dit is een lijst van de vier kleinste waarden van de variabele. In dit voorbeeld zijn de vier kleinste waarden alle 31.

j. grootste-dit is een lijst van de vier grootste waarden van de variabele. In dit voorbeeld zijn de vier grootste waarden alle 67.

b. Obs – deze kolom vertelt u het aantal waarnemingen (of gevallen) dat geldig was (dat wil zeggen, niet ontbrekend) voor die variabele. Als je 200 waarnemingen in je dataset had, maar je had 10 ontbrekende waarden voor de variabele vrouw, dan zou het getal in deze kolom 190 zijn.

k.som van Wgt. – Dit is de som van de gewichten. In Stata kunt u verschillende soorten gewichten gebruiken op uw gegevens. Standaard krijgt elk geval (d.w.z. het onderwerp) een gewicht van 1. Wanneer deze standaard wordt gebruikt, zal de som van de gewichten gelijk zijn aan het aantal waarnemingen.

c. gemiddelde-Dit is het rekenkundig gemiddelde voor de waarnemingen. Het is de meest gebruikte maat voor de centrale tendens. Het wordt vaak het gemiddelde genoemd. Het gemiddelde is gevoelig voor extreem grote of kleine waarden.

d. Std. Dev. – Dit is de standaardafwijking van de variabel. Dit geeft informatie over de spreiding van de verdeling van de variabele.

L. variantie-Dit is de standaarddeviatie in het kwadraat (dat wil zeggen, verhoogd tot de tweede macht). Het is ook een maat voor de verspreiding van de verspreiding.

m. scheefheid-scheefheid meet de mate en richting van asymmetrie. Een symmetrische verdeling zoals een normale verdeling heeft een scheefheid van 0, en een verdeling die naar links scheef is, bijvoorbeeld wanneer het gemiddelde kleiner is dan de mediaan, heeft een negatieve scheefheid.kurtose-kurtose is een maat voor de zwaarte van de staarten van een distributie. Een normale verdeling heeft een kurtose van 3. Zware staartdistributies hebben kurtose groter dan 3 en lichte staartdistributies hebben kurtose minder dan 3.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.