Zanim zaczniemy opisywać niektóre z podstawowych narzędzi, których możesz użyć do eksploracji swoich danych, powinniśmy uzgodnić, co mamy na myśli, gdy używamy słowa „dane”. Łatwo byłoby napisać całą książkę o możliwych definicjach słowo „dane”, ponieważ istnieje tak wiele ważnych pytań, które możesz zadać na temat tak zwanych zestawu danych. Na przykład często chcesz wiedzieć, w jaki sposób wygenerowano dane i czy można oczekiwać, że dane będą reprezentatywne dla populacji, którą naprawdę chcesz badać. Chociaż możesz się wiele dowiedzieć o strukturze społecznej Indian amazońskich, studiując zapisy ich małżeństw, nie jest jasne, czy nauczyłbyś się czegoś, co bardzo dobrze dotyczyło innych kultur w tym procesie. Interpretacja danych wymaga znajomości źródła danych. Często jedynym sposobem na oddzielenie związku przyczynowego od korelacji jest sprawdzenie, czy dane, z którymi pracujesz, zostały wygenerowane eksperymentalnie, czy tylko z obserwacji, ponieważ dane eksperymentalne nie były dostępne. Chociaż tego rodzaju obawy są interesującymi zagadnieniami, o których mamy nadzieję, że kiedyś się dowiesz, w tej książce całkowicie unikniemy problemów związanych z gromadzeniem danych. Dla naszych celów subtelniejsze filozoficzne kwestie analizy danych będą traktowane tak, jakby można je było doskonale oddzielić od rodzajów problemów z prognozowaniem, dla których będziemy wykorzystywać techniki uczenia maszynowego. W trosce o pragmatyzm zastosujemy zatem następującą definicję w dalszej części : „zestaw danych” jest niczym więcej niż dużą tabelą liczb i ciągów, w której każdy wiersz opisuje pojedynczą obserwację rzeczywistego świat i każda kolumna opisuje pojedynczy atrybut, który został zmierzony dla każdej obserwacji reprezentowanej przez rzędy. Jeśli w ogóle jesteś zaznajomiony z bazami danych, ta definicja danych powinna dość dokładnie pasować do twoich intuicji dotyczących struktury tabel baz danych. Jeśli martwisz się, że Twój zestaw danych nie jest naprawdę pojedyncza tabela, udawajmy, że użyłeś scalenia R, rodziny operacji SQL JOIN SQL lub innych narzędzi, które opisaliśmy wcześniej, aby utworzyć zestaw danych, który wygląda jak pojedyncza tabela.
Nazwiemy to modelem „danych jako prostokątów”. Ten punkt widzenia jest wyraźnie znaczącym uproszczeniem, ale pozwoli nam motywować wiele wielkich pomysłów analizy danych, co, mamy nadzieję, sprawi, że to, co w innym razie jest bardzo abstrakcyjne, stanie się bardziej namacalne. A model „dane jako prostokąty” ma inny cel: pozwala nam swobodnie wykorzystywać pomysły z projektu bazy danych, a także pomysły z czystej matematyki. Jeśli martwisz się, że niewiele wiesz o matrycach, nie martw się; w tej książce zawsze będziesz mógł myśleć o matrycach jako o niczym więcej niż o dwuwymiarowych tablicach, czyli o dużym stole. Dopóki zakładamy, że pracujemy z tablicami prostokątnymi, możemy korzystać z wielu zaawansowanych technik matematycznych bez konieczności bardzo uważnego zastanawiania się nad faktycznie wykonywanymi operacjami matematycznymi. Na przykład krótko opisujemy mnożenie macierzy później, mimo że prawie każdą technikę, którą będziemy wykorzystywać, można opisać w kategoriach mnożenia macierzy, niezależnie od tego, czy jest to standardowy model regresji liniowej, czy nowoczesne techniki faktoryzacji macierzy, które stały się ostatnio tak popularne dzięki do nagrody Netflix. Ponieważ dane składają się z prostokątów, możemy właściwie rysować rodzaje operacji, które wykonamy dość łatwo. Numeryczne podsumowanie danych obejmuje zredukowanie wszystkich wierszy ze tabeli do kilku liczb – często tylko jednej liczby dla każdej kolumny w zestawie danych. W przeciwieństwie do podsumowania liczbowego wizualizacja zawartości pojedynczej kolumny zwykle polega na zmniejszeniu wszystkich wierszy z jednej kolumny danych do jednego obrazu. Na przykład obliczenie korelacji między dwiema kolumnami przekształca wszystkie wiersze z dwóch kolumn tabeli w jedną liczbę, która podsumowuje siłę relacji między tymi dwiema kolumnami. Są też inne narzędzia, które idą dalej. Oprócz powiązania ze sobą par kolumn, możesz chcieć zmniejszyć liczbę kolumn w zbiorze danych, jeśli uważasz, że istnieje dużo nadmiarowości. Zastąpienie wielu kolumn w zbiorze danych kilkoma kolumnami lub nawet jedną nazywa się redukcją wymiarów. Statystyki podsumowujące i redukcja wymiarów poruszają się w przeciwnych kierunkach: statystyki podsumowujące mówią coś o tym, jak zachowują się wszystkie wiersze w zbiorze danych, gdy poruszasz się wzdłuż pojedynczej kolumny, podczas gdy narzędzia do zmniejszania wymiarów pozwalają zastępujesz wszystkie kolumny w danych małą liczbą kolumn, które mają unikalną wartość dla każdego wiersza. Podczas eksploracji danych oba te podejścia mogą być pomocne, ponieważ pozwalają zamienić góry danych, które czasem dostajesz w coś, co jest natychmiast zrozumiałe.