Jednym z najlepszych sposobów, aby zacząć rozumieć nowy zestaw danych, jest obliczenie prostych podsumowań numerycznych wszystkich kolumn. R jest do tego bardzo dobrze przystosowany. Jeśli masz tylko jedną kolumnę ze zbioru danych jako wektor, podsumowanie wyrzuci najbardziej oczywiste wartości, na które powinieneś najpierw spojrzeć:
data.file <- file.path(‘data’, ’01_heights_weights_genders.csv’)
heights.weights <- read.csv(data.file, header = TRUE, sep = ‘,’)
heights <- with(heights.weights, Height)
summary(heights)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
#54.26 63.51 66.32 66.37 69.17 79.00
Pytanie o streszczenie wektora liczb z R da ci liczby, które widzisz w przykładzie:
- Minimalna wartość w wektorze
- Pierwszy kwartyl (który jest również nazywany 25. percentylem i jest najmniejszą liczbą, która przekracza 25% twoich danych)
- Mediana (inaczej 50 percentyl)
- Średnia
- Trzeci kwartyl (inaczej 75 percentyl)
- Maksymalna wartość
Jest to prawie wszystko, o co powinieneś poprosić, jeśli chcesz szybkiego numerycznego podsumowania zestawu danych. Jedyne, czego tak naprawdę brakuje, to odchylenie standardowe pozycji kolumn, podsumowanie liczbowe, które zdefiniujemy w dalszej części tego rozdziału. Na kolejnych stronach opiszemy, jak obliczyć każdą z liczb, które podsumowanie generuje osobno, a następnie pokażemy, jak je interpretować.