Questa pagina mostra un esempio di ottenere statistiche descrittive usando il comando summarize con note a piè di pagina che spiegano l’output. Nel primo esempio, otteniamo le statistiche descrittive per una variabile 0/1 (fittizia) chiamata femmina. Questa variabile è codificata 1 se lo studente era femmina e 0 altrimenti. Nel secondo esempio, otteniamo le statistiche descrittive per una variabile continua chiamata write, che era il punteggio ricevuto dagli studenti durante un test di scrittura. Usiamo l’opzione dettaglio per ottenere ulteriori informazioni, tra cui percentili, asimmetria e curtosi. Non è necessario utilizzare l’opzione dettaglio con tutte le variabili continue.
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2(highschool and beyond (200 cases))
summarize female
Variablea| Obsb Meanc Std. Dev.d Mine Maxf-------------+-------------------------------------------------------- female | 200 .545 .4992205 0 1
a. Variable – Questa colonna indica quale variabile viene descritta. È possibile elencare più di una variabile dopo il comando summarize; quando lo fai, vedrai ogni variabile sulla propria riga dell’output.
b. Obs-Questa colonna indica il numero di osservazioni (o casi) valide (cioè, non mancante) per quella variabile. Se avessi 200 osservazioni nel tuo set di dati, ma avevi 10 valori mancanti per la variabile female, il numero in questa colonna sarebbe 190.
c. Media-Questa è la media della variabile. In questo caso, la nostra variabile femmina varia da 0 a 1 (i valori min e max), quindi la media è in realtà la proporzione di osservazioni codificate come 1.
d. Std. Dev. – Questa è la deviazione standard del variabile. Questo fornisce informazioni sulla diffusione della distribuzione della variabile.
summarize write, detail
writing score------------------------------------------------------------- Percentiles Smallesti 1%e 31 31 5% 35.5 3110% 39 31 Obsb 20025%f 45.5 31 Sum of Wgt.k 200
50%g 54 Meanc 52.775 Largestj Std. Dev.d 9.47858675%h 60 6790% 65 67 Variancel 89.8435995% 65 67 Skewnessm -.478415899% 67 67 Kurtosisn 2.238527
e. 1% – Questo è il primo percentile. I percentili vengono calcolati ordinando i valori di una variabile dal più basso al più alto e quindi trovando il valore che corrisponde a qualsiasi percentuale che ti interessa, in questo caso, 1%. Quindi, l ‘ 1% dei valori della variabile write sono uguali o inferiori a 31.
f. 25% – Questo è il 25 ° percentile, noto anche come primo quartile.
g. 50% – Questo è il 50 ° percentile, noto anche come la mediana. Se ordinate i valori della variabile dal più basso al più alto, la mediana sarebbe il valore esattamente nel mezzo. In altre parole, metà dei valori sarebbe al di sotto della mediana e metà sarebbe al di sopra. Questa è una buona misura della tendenza centrale se la variabile ha valori anomali.
h. 75% – Questo è il 75 ° percentile, noto anche come terzo quartile.
i. Smallest-Questo è un elenco dei quattro valori più piccoli della variabile. In questo esempio, i quattro valori più piccoli sono tutti 31.
j. Più grande-Questo è un elenco dei quattro valori più grandi della variabile. In questo esempio, i quattro valori più grandi sono tutti 67.
b. Obs – Questa colonna indica il numero di osservazioni (o casi) valide (cioè non mancanti) per quella variabile. Se avessi 200 osservazioni nel tuo set di dati, ma avevi 10 valori mancanti per la variabile female, il numero in questa colonna sarebbe 190.
k. Somma di Wgt. – Questa è la somma dei pesi. In Stata, puoi utilizzare diversi tipi di pesi sui tuoi dati. Per impostazione predefinita, a ogni caso (cioè soggetto) viene assegnato un peso di 1. Quando viene utilizzato questo valore predefinito, la somma dei pesi sarà uguale al numero di osservazioni.
c. Media-Questa è la media aritmetica attraverso le osservazioni. È la misura più utilizzata della tendenza centrale. È comunemente chiamato la media. La media è sensibile a valori estremamente grandi o piccoli.
d. Std. Dev. – Questa è la deviazione standard del variabile. Questo fornisce informazioni sulla diffusione della distribuzione della variabile.
l. Varianza-Questa è la deviazione standard al quadrato (cioè, elevata alla seconda potenza). È anche una misura della diffusione della distribuzione.
m. Skewness-L’asimmetria misura il grado e la direzione dell’asimmetria. Una distribuzione simmetrica come una distribuzione normale ha un’asimmetria di 0 e una distribuzione inclinata a sinistra, ad esempio quando la media è inferiore alla mediana, ha un’asimmetria negativa.
n. Kurtosis-Kurtosis è una misura della pesantezza delle code di una distribuzione. Una distribuzione normale ha una curtosi di 3. Le distribuzioni a coda pesante avranno curtosi superiore a 3 e le distribuzioni a coda leggera avranno kurtosi inferiore a 3.