Podsumowania numeryczne

Jednym z najlepszych sposobów, aby zacząć rozumieć nowy zestaw danych, jest obliczenie prostych podsumowań numerycznych wszystkich kolumn. R jest do tego bardzo dobrze przystosowany. Jeśli masz tylko jedną kolumnę ze zbioru danych jako wektor, podsumowanie wyrzuci najbardziej oczywiste wartości, na które powinieneś najpierw spojrzeć:

data.file <- file.path(‘data’, ’01_heights_weights_genders.csv’)

heights.weights <- read.csv(data.file, header = TRUE, sep = ‘,’)

heights <- with(heights.weights, Height)

summary(heights)

# Min. 1st Qu. Median Mean 3rd Qu. Max.

#54.26 63.51 66.32 66.37 69.17 79.00

Pytanie o streszczenie wektora liczb z R da ci liczby, które widzisz w przykładzie:

  1. Minimalna wartość w wektorze
  2. Pierwszy kwartyl (który jest również nazywany 25. percentylem i jest najmniejszą liczbą, która przekracza 25% twoich danych)
  3. Mediana (inaczej 50 percentyl)
  4. Średnia
  5. Trzeci kwartyl (inaczej 75 percentyl)
  6. Maksymalna wartość

Jest to prawie wszystko, o co powinieneś poprosić, jeśli chcesz szybkiego numerycznego podsumowania zestawu danych. Jedyne, czego tak naprawdę brakuje, to odchylenie standardowe pozycji kolumn, podsumowanie liczbowe, które zdefiniujemy w dalszej części tego rozdziału. Na kolejnych stronach opiszemy, jak obliczyć każdą z liczb, które podsumowanie generuje osobno, a następnie pokażemy, jak je interpretować.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *