Jak powiedzieliśmy , mediana to liczba występująca w 50% punkcie twoich danych. Aby lepiej poznać zakres danych, możesz chcieć wiedzieć, jaka wartość jest najniższym punktem w danych. Jest to minimalna wartość zestawu danych, która jest obliczana przy użyciu min w R:
min(heights)
#[1] 54.26313
Aby uzyskać najwyższy / maksymalny punkt w zbiorze danych, należy użyć maks. W R:
max1(heights)
# [1] 78,99874
min. i maks. Razem określają zakres twoich danych:
c(min(heights), max(heights))
#[1] 54.26313 78.99874
range(heights)
#[1] 54.26313 78.99874
Innym sposobem myślenia o tych liczbach jest myślenie o min jako liczbie, o której 0% twoich danych jest poniżej, a maksimum jako o tym, że 100% twoich danych jest poniżej. Myślenie w ten sposób prowadzi do naturalnego rozszerzenia: jak znaleźć liczbę, o którą N% twoich danych jest poniżej? Odpowiedzią na to pytanie jest użycie funkcji kwantyli w R. N-ty kwantyl to dokładnie liczba, o którą N% twoich danych jest poniżej. Domyślnie kwantyl powie ci 0%, 25%, 50%, 75% i 100% punktów w twoich danych:
quantile(heights)
# 0% 25% 50% 75% 100%
#54.26313 63.50562 66.31807 69.17426 78.99874
Aby uzyskać inne lokalizacje, możesz przekazać wybrane wartości odcięcia jako kolejny argument kwantylu o nazwie probs:
quantile(heights, probs = seq(0, 1, by = 0.20))
# 0% 20% 40% 60% 80% 100%
#54.26313 62.85901 65.19422 67.43537 69.81162 78.99874
Tutaj użyliśmy funkcji seq do wygenerowania sekwencji wartości od 0 do 1, która rośnie w przyrostach o 0,20:
seq(0, 1, by = 0,20)
# [1] 0,0 0,2 0,4 0,6 0,8 1,0
Kwantyle nie są podkreślane w tradycyjnych tekstach statystycznych tak często, jak środki i mediany, ale mogą być równie przydatne. Jeśli prowadzisz oddział obsługi klienta i rejestrujesz, ile czasu zajmuje reakcja na obawy klienta, możesz znacznie więcej skorzystać z martwienia się o to, co stanie się z pierwszymi 99% klientów niż martwienie się o to, co stanie się z medianą klienta. A przeciętny klient może być jeszcze mniej informacyjny, jeśli Twoje dane mają dziwny kształt