Statistiques descriptives à l’aide de la commande resume | Sortie annotée Stata

Cette page montre un exemple d’obtention de statistiques descriptives à l’aide de la commande resume avec des notes de bas de page expliquant la sortie. Dans le premier exemple, nous obtenons les statistiques descriptives d’une variable 0/1 (factice) appelée female. Cette variable est codée 1 si l’élève était une femme, et 0 sinon. Dans le deuxième exemple, nous obtenons les statistiques descriptives d’une variable continue appelée write, qui correspondait au score obtenu par les élèves lors d’un test d’écriture. Nous utilisons l’option détail pour obtenir des informations supplémentaires, y compris les centiles, l’asymétrie et le kurtosis. Vous n’avez pas besoin d’utiliser l’option détail avec toutes les variables continues.

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2(highschool and beyond (200 cases))
summarize female
 Variablea| Obsb Meanc Std. Dev.d Mine Maxf-------------+-------------------------------------------------------- female | 200 .545 .4992205 0 1

a. Variable – Cette colonne indique quelle variable est décrite. Vous pouvez lister plus d’une variable après la commande résumer ; lorsque vous le faites, vous verrez chaque variable sur sa propre ligne de sortie.

b. Obs – Cette colonne vous indique le nombre d’observations (ou de cas) valides (i.e., non manquant) pour cette variable. Si vous aviez 200 observations dans votre ensemble de données, mais que vous aviez 10 valeurs manquantes pour la variable female, le nombre dans cette colonne serait de 190.

c. Mean – C’est la moyenne de la variable. Dans ce cas, notre variable femelle varie de 0 à 1 (les valeurs min et max), donc la moyenne est en fait la proportion d’observations codée comme 1.

d.Std. Dev. – C’est l’écart type de la variable. Cela donne des informations sur la répartition de la distributionde la variable.

summarize write, detail
 writing score------------------------------------------------------------- Percentiles Smallesti 1%e 31 31 5% 35.5 3110% 39 31 Obsb 20025%f 45.5 31 Sum of Wgt.k 200
50%g 54 Meanc 52.775 Largestj Std. Dev.d 9.47858675%h 60 6790% 65 67 Variancel 89.8435995% 65 67 Skewnessm -.478415899% 67 67 Kurtosisn 2.238527

e. 1% – C’est le premier percentile. Les centiles sont calculés en ordonnant les valeurs d’une variable du plus bas au plus élevé, puis en trouvant la valeur qui correspond au pourcentage qui vous intéresse, dans ce cas, 1%. Ainsi, 1% des valeurs de la variable d’écriture sont égales ou inférieures à 31.

f. 25% – Il s’agit du 25e centile, également connu sous le nom de premier quartile.

g. 50% – Il s’agit du 50e centile, également appelé médiane. Si vous ordonnez les valeurs de la variable du plus bas au plus élevé, la médiane serait la valeur exactement au milieu. En d’autres termes, la moitié des valeurs serait inférieure à la médiane et la moitié serait supérieure. C’est une bonne mesure de la tendance centrale si la variable a des valeurs aberrantes.

h. 75% – Il s’agit du 75e centile, également connu sous le nom de troisième quartile.

i.Smallest – Il s’agit d’une liste des quatre plus petites valeurs de la variable. Dans cet exemple, les quatre plus petites valeurs sont toutes 31.

j.Largest – Il s’agit d’une liste des quatre plus grandes valeurs de la variable. Dans cet exemple, les quatre plus grandes valeurs sont toutes 67.

b. Obs – Cette colonne vous indique le nombre d’observations (ou de cas) valides (c’est-à-dire non manquantes) pour cette variable. Si vous aviez 200 observations dans votre ensemble de données, mais que vous aviez 10 valeurs manquantes pour la variable female, le nombre dans cette colonne serait de 190.

k. Somme des GT. – C’est la somme des poids. Dans Stata, vous pouvez utiliser différents types de poids sur vos données. Par défaut, chaque cas (c’est-à-dire le sujet) reçoit un poids de 1. Lorsque cette valeur par défaut est utilisée, la somme des poids sera égale au nombre d’observations.

c. Moyenne – C’est la moyenne arithmétique des observations. C’est la mesure de tendance centrale la plus utilisée. On l’appelle communément la moyenne. La moyenne est sensible à des valeurs extrêmement grandes ou petites.

d.Std. Dev. – C’est l’écart type de la variable. Cela donne des informations sur la répartition de la distributionde la variable.

l. Variance – C’est l’écart-type au carré (c’est-à-dire augmenté à la deuxième puissance). C’est aussi une mesure de la propagation de la distribution.

m. Asymétrie – L’asymétrie mesure le degré et la direction de l’asymétrie. Une distribution symétrique telle qu’une distribution normale a une asymétrie de 0, et une distribution qui est asymétrique vers la gauche, par exemple lorsque la moyenne est inférieure à la médiane, a une asymétrie négative.

n. Kurtose – Kurtose est une mesure de la lourdeur des queues d’une distribution. Une distribution normale a un kurtosis de 3. Les distributions à queue lourde auront une kurtose supérieure à 3 et les distributions à queue légère auront une kurtose inférieure à 3.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.