Eksploracja danych

Eksploracja a potwierdzenie

Podczas pracy z danymi warto wyobrazić sobie podzielenie analizy na dwie całkowicie oddzielne części: eksplorację i potwierdzenie. Różnica między analizą danych eksploracyjnych a analizą danych potwierdzających sprowadza się do słynnego Johna Tukeya , który podkreślił znaczenie projektowania prostych narzędzi do praktycznej analizie danych. W opinii Tukeya kroki eksploracyjne w analizie danych obejmują użycie tabel podsumowań i podstawowych wizualizacji w celu wyszukiwania ukrytych wzorców w danych. W tym rozdziale opisujemy niektóre podstawowe narzędzia, które R zapewnia do numerycznego podsumowania danych, a następnie uczymy, jak rozumieć wyniki.

Następnie pokażemy niektóre z narzędzi istniejących w R do wizualizacji danych, a jednocześnie zapewniamy wirową wycieczkę po podstawowych wzorach wizualnych, na które powinieneś zwrócić uwagę w każdej sytuacji. Ale zanim zaczniesz przeszukiwać swój pierwszy zestaw danych, powinniśmy Cię ostrzec o prawdziwym niebezpieczeństwie, które występuje podczas eksploracji danych: prawdopodobnie znajdziesz wzorce, których tak naprawdę nie ma. Ludzki umysł został zaprojektowany, aby znaleźć wzorce na świecie i zrobi to nawet wtedy, gdy wzorce te będą tylko dziwactwem losowym. Nie potrzebujesz dyplomu ze statystyki, aby wiedzieć, że my, ludzie, z łatwością odnajdujemy kształty w chmurach po spojrzeniu na nie tylko przez kilka sekund. I wiele osób przekonało się, że odkryło ukryte wiadomości w zwykłych tekstach, takich jak sztuki Szekspira.

Ponieważ ludzie są podatni na odkrywanie wzorców, które nie są w stanie przeprowadzić dokładnej analizy, etap eksploracyjny w analizie danych nie może istnieć w izolacji; musi mu towarzyszyć krok potwierdzający. Pomyśl o potwierdzającej analizie danych jako o rutynowej higienie psychicznej, której używamy, aby pozbyć się naszych przekonań na temat świata po naszym przemykał przez chaotyczny – a czasem bezprawny – świat wizualizacji danych eksploracyjnych.

Analiza danych potwierdzających zwykle wykorzystuje dwa narzędzia:

  • Testowanie formalnego modelu wzorca, który Twoim zdaniem znalazł się w nowym zbiorze danych, którego nie użyłeś do znalezienia wzorca.
  • Wykorzystanie teorii prawdopodobieństwa do przetestowania, czy wzorce znalezione w oryginalnym zbiorze danych mogły zostać rozsądnie wygenerowane przypadkowo.

Ponieważ potwierdzająca analiza danych wymaga więcej matematyki niż analizy danych eksploracyjnych, ten rozdział dotyczy wyłącznie narzędzi eksploracyjnych. W praktyce oznacza to, że skupimy się na numerycznych podsumowaniach danych i niektórych standardowych narzędziach do wizualizacji. Opisane przez nas podsumowania numeryczne to podstawowe elementy statystyki wprowadzającej: średnie i tryby, percentyle i mediany oraz odchylenia standardowe i wariancje. Narzędzia wizualizacji, których używamy, są również jednymi z najbardziej podstawowych narzędzi, których można się nauczyć na kursie „Wprowadzenie do statystyki”: histogramy, szacunki gęstości jądra i wykresy rozrzutu. Uważamy, że proste wizualizacje są często niedoceniane i mamy nadzieję, że możemy Cię przekonać, że często możesz dowiedzieć się dużo o swoich danych, używając tylko tych podstawowych narzędzi.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *