ta strona pokazuje przykład uzyskiwania statystyk opisowych za pomocą polecenia Sumuj z przypisami wyjaśniającymi dane wyjściowe. W pierwszym przykładzie otrzymujemy statystykę opisową dla zmiennej 0/1 (obojętnej) o nazwie żeńskiej. Ta zmienna jest zakodowana jako 1, jeśli studentem była kobieta, a 0 w przeciwnym razie. W drugim przykładzie otrzymujemy statystyki opisowe dla zmiennej ciągłej o nazwie write, która była wynikiem uzyskanym przez uczniów na teście pisemnym. Korzystamy z opcji detail, aby uzyskać dodatkowe informacje, w tym percentyle, skewness i kurtosis. Nie musisz używać opcji detail ze wszystkimi zmiennymi ciągłymi.
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2(highschool and beyond (200 cases))
summarize female
Variablea| Obsb Meanc Std. Dev.d Mine Maxf-------------+-------------------------------------------------------- female | 200 .545 .4992205 0 1
a. zmienna – ta kolumna wskazuje, która zmienna jest opisywana. Możesz wyświetlić więcej niż jedną zmienną po komendzie Sumuj; kiedy to zrobisz, zobaczysz każdą zmienną w jej własnym wierszu wyjścia.
b. Obs-ta kolumna podaje liczbę obserwacji (lub przypadków), które były poprawne (np., nie brakuje) dla tej zmiennej. Gdybyś miał 200 obserwacji w swoim zbiorze danych, ale miałeś 10 brakujących wartości dla zmiennej female, to liczba w tej kolumnie byłaby 190.
C. średnia-jest to średnia zmiennej. W tym przypadku nasza zmienna żeńska waha się od 0 do 1 (wartości min i max), więc średnia jest w rzeczywistości proporcją obserwacji zakodowaną jako 1.
d. Std. Dev. – To jest odchylenie standardowe zmienności. Daje to informacje dotyczące rozprzestrzenienia się zmiennej.
summarize write, detail
writing score------------------------------------------------------------- Percentiles Smallesti 1%e 31 31 5% 35.5 3110% 39 31 Obsb 20025%f 45.5 31 Sum of Wgt.k 200
50%g 54 Meanc 52.775 Largestj Std. Dev.d 9.47858675%h 60 6790% 65 67 Variancel 89.8435995% 65 67 Skewnessm -.478415899% 67 67 Kurtosisn 2.238527
e. 1% – jest to pierwszy percentyl. Percentyle są obliczane przez uporządkowanie wartości zmiennej od najniższej do najwyższej, a następnie znalezienie wartości, która odpowiada dowolnemu procentowi, który Cię interesuje, w tym przypadku, 1%. Stąd 1% wartości zmiennej write jest równe lub mniejsze niż 31.
f. 25% – jest to 25 percentyl, znany również jako pierwszy kwartyl.
g. 50% – jest to 50.percentyl, znany również jako mediana. Jeśli ustawisz wartości zmiennej od najniższej do najwyższej, mediana będzie wartością dokładnie pośrodku. Innymi słowy, połowa wartości byłaby poniżej mediany, a połowa byłaby powyżej. Jest to dobra miara tendencji centralnej, jeśli zmienna ma wartości odstające.
h. 75% – jest to 75. percentyl, znany również jako trzeci kwartyl.
i. najmniejszy – jest to lista czterech najmniejszych wartości zmiennej. W tym przykładzie cztery najmniejsze wartości to 31.
j. Largest – jest to lista czterech największych wartości zmiennej. W tym przykładzie cztery największe wartości to wszystkie 67.
b. Obs-ta kolumna podaje liczbę obserwacji (lub przypadków), które były poprawne (tzn. nie brakowało) dla tej zmiennej. Gdybyś miał 200 obserwacji w swoim zbiorze danych, ale miałeś 10 brakujących wartości dla zmiennej female, to liczba w tej kolumnie byłaby 190.
k. suma Wgt. – To jest suma wag. W Stata możesz używać różnych rodzajów wag na swoich danych. Domyślnie każdy przypadek (tj. temat) ma wagę 1. Gdy ta wartość domyślna jest używana, suma wag będzie równa liczbie obserwacji.
C. średnia-jest to średnia arytmetyczna w obserwacjach. Jest to najczęściej stosowana miara tendencji centralnej. Potocznie nazywana jest średnią. Średnia jest wrażliwa na bardzo duże lub małe wartości.
d. Std. Dev. – To jest odchylenie standardowe zmienności. Daje to informacje dotyczące rozprzestrzenienia się zmiennej.
l. wariancja-jest to odchylenie standardowe do kwadratu (tj. podniesione do drugiej potęgi). Jest również miarą rozprzestrzenienia się rozkładu.
m. Skewness-Skewness mierzy stopień i kierunek asymetrii. Rozkład symetryczny, taki jak rozkład normalny, ma krzywiznę 0, a rozkład, który jest przekrzywiony w lewo, np. gdy średnia jest mniejsza niż mediana, ma krzywiznę ujemną.
n. Kurtoza-Kurtoza jest miarą ciężkości ogonów rozkładu. Rozkład normalny ma kurtozę 3. Ciężkie dystrybucje ogonowe będą miały kurtozę większą niż 3, a lekkie dystrybucje ogonowe będą miały kurtozę mniejszą niż 3.