Beschreibende Statistiken mit dem summarize-Befehl / Stata Annotated Output

Diese Seite zeigt ein Beispiel für das Abrufen beschreibender Statistiken mit dem summarize-Befehl mit Fußnoten, die die Ausgabe erläutern. Im ersten Beispiel erhalten wir die deskriptive Statistik für eine 0/1 (Dummy) Variable namens female . Diese Variable ist codiert 1 wenn der Student weiblich war, und 0 andernfalls. Im zweiten Beispiel erhalten wir die deskriptiven Statistiken für eine kontinuierliche Variable namens write, die die Punktzahl war, die die Schüler bei einem Schreibtest erhalten haben. Wir verwenden die Detailoption, um zusätzliche Informationen zu erhalten, einschließlich Perzentile, Schiefe und Kurtosis. Sie müssen die Option Detail nicht bei allen stetigen Variablen verwenden.

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2(highschool and beyond (200 cases))
summarize female
 Variablea| Obsb Meanc Std. Dev.d Mine Maxf-------------+-------------------------------------------------------- female | 200 .545 .4992205 0 1

a. Variable – Diese Spalte gibt an, welche Variable beschrieben wird. Wenn Sie dies tun, sehen Sie jede Variable in einer eigenen Zeile der Ausgabe.

b. Obs – Diese Spalte gibt die Anzahl der Beobachtungen (oder Fälle) an, die gültig waren (z., nicht fehlt) für diese Variable. Wenn Sie 200 Beobachtungen in Ihrem Datensatz hatten, aber 10 fehlende Werte für die Variable female , dann wäre die Zahl in dieser Spalte 190.

c. Mean – Dies ist der Mittelwert der Variablen. In diesem Fall reicht unsere Variable female von 0 bis 1 (die Min- und Max-Werte), sodass der Mittelwert tatsächlich der Anteil der Beobachtungen ist, die als 1 codiert sind.

d. Std. Dev. – Dies ist die Standardabweichung dervariable. Dies gibt Auskunft über die Streuung der Verteilung der Variablen.

summarize write, detail
 writing score------------------------------------------------------------- Percentiles Smallesti 1%e 31 31 5% 35.5 3110% 39 31 Obsb 20025%f 45.5 31 Sum of Wgt.k 200
50%g 54 Meanc 52.775 Largestj Std. Dev.d 9.47858675%h 60 6790% 65 67 Variancel 89.8435995% 65 67 Skewnessm -.478415899% 67 67 Kurtosisn 2.238527

e. 1% – Dies ist das erste Perzentil. Perzentile werden berechnet, indem die Werte einer Variablen vom niedrigsten zum höchsten sortiert und dann der Wert ermittelt wird, der dem Prozentsatz entspricht, an dem Sie interessiert sind, in diesem Fall 1%. Daher sind 1% der Werte der Variablen write gleich oder kleiner als 31.

f. 25% – Dies ist das 25.

g. 50% – Dies ist das 50. Wenn Sie die Werte der Variablen vom niedrigsten zum höchsten ordnen, ist der Median der Wert genau in der Mitte. Mit anderen Worten, die Hälfte der Werte würde unter dem Median liegen und die Hälfte darüber. Dies ist ein gutes Maß für die zentrale Tendenz, wenn die Variable Ausreißer aufweist.

h. 75% – Dies ist das 75.

i. Smallest – Dies ist eine Liste der vier kleinsten Werte der Variablen. In diesem Beispiel sind die vier kleinsten Werte alle 31.

j. Largest – Dies ist eine Liste der vier größten Werte der Variablen. In diesem Beispiel sind die vier größten Werte alle 67.

b. Obs – Diese Spalte gibt die Anzahl der Beobachtungen (oder Fälle) an, die für diese Variable gültig waren (dh nicht fehlten). Wenn Sie 200 Beobachtungen in Ihrem Datensatz hatten, aber 10 fehlende Werte für die Variable female , dann wäre die Zahl in dieser Spalte 190.

k. Summe von Wgt. – Dies ist die Summe der Gewichte. In Stata können Sie verschiedene Arten von Gewichtungen für Ihre Daten verwenden. Standardmäßig wird jedem Fall (d. H. Subjekt) ein Gewicht von 1 zugewiesen. Wenn dieser Standardwert verwendet wird, entspricht die Summe der Gewichtungen der Anzahl der Beobachtungen.

c. Mean – Dies ist das arithmetische Mittel über die Beobachtungen. Es ist das am weitesten verbreitete Maß für die zentrale Tendenz. Es wird allgemein als Durchschnitt bezeichnet. Der Mittelwert reagiert empfindlich auf extrem große oder kleine Werte.

d. Std. Dev. – Dies ist die Standardabweichung dervariable. Dies gibt Auskunft über die Streuung der Verteilung der Variablen.

l. Varianz – Dies ist die Standardabweichung im Quadrat (d. H. Auf die zweite Potenz angehoben). Es ist auch ein Maß für die Verbreitung der Verteilung.

m. Schiefe – Schiefe misst den Grad und die Richtung der Asymmetrie. Eine symmetrische Verteilung wie eine Normalverteilung hat eine Schiefe von 0, und eine Verteilung, die nach links schief ist, z. B. wenn der Mittelwert kleiner als der Median ist, hat eine negative Schiefe.

n. Kurtosis – Kurtosis ist ein Maß für die Schwere der Schwänze einer Verteilung. Eine Normalverteilung hat eine Kurtosis von 3. Schwere tailed Verteilungen haben kurtosis größer als 3 und Licht tailed Verteilungen havekurtosis kleiner als 3.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.